
您不能说的是,大型模型会为您说。图像的字幕产生是计算机视觉和自然语言处理领域的长期挑战,因为它涉及理解和描述自然语言的视觉内容。尽管最近的视觉语言模型(VLM)在图像级别描述的产生中取得了惊人的结果,但如何为图像中特定位置生成详细和准确的描述仍然是一个空旷的问题。这一挑战在视频领域尤其是众所周知,因为模型还应补充获得动态的视觉内容,例如人类运动,对象运动和人类对象触点。为了解决上述问题,来自NVIDIA,加州大学伯克利分校和其他机构的研究人员推出了“描述任何Modelo”(DAM)。这是一个强大的多模式模型,可生成图像或视频中特定位置的详细描述。用户可以使用点,盒子,涂鸦或口罩来定义PLACES和DAM将为这些领域的背景提供丰富的描述。纸张标题:描述任何内容:详细的图像和视频字幕论文:https://arxiv.org/pdf/2504.16072 Paper HomePage:https://describe-ything.github.io/参见视频设计设计的影响。起初,牛略微下降,表现出平静的表情。随着图片的出现,牛开始向前移动,伸展他的腿,并且有一个稳定的节奏。它的尾巴上有簇,每个步骤都会轻轻地挥动,并在其运动中增加了一些东西。牛的身体垂直保持,背面有一个略微拱形,表现出轻松的姿势。 “一只带有浅棕色皮毛和略带黑暗脸的猴子在一系列动态动作中捕获。起初,它似乎用右手到达一个容器,手里拿着一块黄色的食物。猴子的姿势倾斜,将猴子靠近嘴巴靠近嘴,双手奔跑。略微闭合,身体上覆盖着柔软的白发。看来鼠标所教的东西自动划分了。在瓦卡斯,我们选择了拉布拉多小狗。该模型迅速,准确地响应。深入研究用户指定区域的温和细节。特征,相互作用和轻度变化。通过平衡焦点区域和全球环境的清晰度,该模型可以突出显示微妙的特征(例如复杂的模式或变化的纹理),这比对图像级别的一般描述所能提供的更多。用户还可以指导该模型提出不同细节和样式的描述。如果这是一个简短的摘要或一个长而复杂的叙述,则该模型可能会调整输出。这种灵活性使其适用于广泛的用例,从快速标记活动到对专家的深入分析。除了开发PagsDeScribe外,大坝模型还可以回答有关特定区域的问题,而无需其他t下雨数据。例如,用户可以询问区域属性,该模型将使用其对本地区域的理解来提供基于上下文的答案。本文提出了大坝,以解决该区域的指定特征,以解决丢失细节的问题,并保持本地细节和全球环境。大坝通过两项主要创新实现了这一目标:1)焦点提示,该焦点已注册了感兴趣的地区; 2)本地视觉骨干,这可以确保在整合全球环境的同时进行准确的定位。这些成分使大坝可以生成详细而准确的描述,即使对于复杂的定位中的小物体也是如此。特别是:聚焦提示,可以提供完整图像和目标区域的扩大视图。此方法可确保模型在保持全球背景的同时获取良好的细节。最终演示是详细且准确的,这不仅可以反映一般情况,还可以获得细节es。本地视觉骨干网络引入了一个本地视觉骨干网络,该网络结合了全局功能和本地功能。图像和掩码在空间上对齐,封闭式的跨注意层设置了具有全局上下文的本地细节。此外,新参数将启动零,从而维护预先摄入的功能。这种设计可以产生更丰富,更多的上下文意识描述。此外,由于缺乏对现有数据集的详细局部描述,该研究设计了两个阶段的过程。首先,他们使用视觉语言模型(VLM)在小描述中扩展了短类标签。其次,将自我训练应用于非生成图像作为半监督研究方法,并使用大坝模型生成和优化了新的描述。这种可扩展的方法允许开发大型高质量的培训数据集,而无需依赖大量的手动注释。实验和结果DAM在本地图像和视频描述任务上表现良好,可以支持多元的输出(包括关键字,短语和详细说明),并在基准测试和零样本的基准标准上实现SOTA。测试对象和PACO数据集的LVI级别,该方法实现了最佳性能。在表4中的Ref-L4基准上,与以前的最佳方法相比,基于语言的描述的本文程序对基于语言的描述有所33.4%,与以前的最佳方法相比,基于长语言的指标的基于语言的描述为13.1%。如表5所示,大坝明显好于现有的一般和特定的VLM。在表6中,DAM先前的最佳分数相对于先前的HC-STVG最佳结果提高了19.8%。在表7中,大坝在零和内域设置中都超过了先前的最佳结果。有关更多信息,请参阅原始论文。