Google 在生成式 AI 领域起步较晚,但近期 Gemini 发展迅速。最新发布的 Gemini 2.5 Pro (实验版)在基准测试和用户体验方面均有显著提升,有望挑战 ChatGPT 的主导地位。Google 表示,这得益于长期投资的成果开始发挥作用。新版本在推理能力、性能效率等方面都有进步,但在技术细节透明度方面仍有待改进。
为了实现图像中的交互式区域特定理解,最近的方法采用了各种策略来表示目标区域:在文本标记中编码文本框坐标,利用视觉 RoI 特征,或应用视觉标记。将这些能力扩展到视频领域,一些方法将初始帧的边界框坐标作为文本形式用于区域级视频理解任务。然而,一种能够有效解决图像和视频中区域特定任务的通用方法仍然是一个开放的挑战。