k8凯发天生赢家

英伟达推出LocateAnything，主打AI高速、高精度检测对象

IT之家 5 月 30 日新闻，

作者：陈姵芝

颁布功夫：2026-06-02 17:11:47

英伟达推出LocateAnything，主打AI高速、高精度检测对象

IT之家 5 月 30 日新闻，英伟达昨日（5 月 29 日）颁布博文，颁发携手香港理工大学、漯河大学等，推出 LocateAnything 模型，主打高速、高精度检测对象。

该模型能够从照片或截图中找出指定对象，并用检测框标出地位，重点服务机械人感知、电脑自动操作等必要急剧定位的场景。

NVIDIA 在介绍中强调，机械人和 AI Agent（智能体）仅能“看见”还不够，还必须足够快地确认指标地位。LocateAnything 萦绕检测框预测重新设计，让视觉说话检测更适合即时交互工作。

LocateAnything 提出 Parallel Box Decoding（并行框解码），把天堑框或点作为固定长度原子单元，在 1 步内预测 x1、y1、x2、y2。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode：

Fast Mode 面向端侧机械人和具身智能，强调吞吐；Slow Mode 左袒离线标注和高精度评测；Hybrid Mode 默认急剧输出，遇到体式异；蚩占淦缫迨鼻谢刈曰毓榻饴。

团队还构建 LocateAnything-Data，蕴含 12M 独立图像、138M 说话查问和 785M 天堑框。数据覆盖通用检测、GUI 元素定位、指代表白理解、OCR 文字定位、版面定位和点定位，显著扩大训练场景。

在单张 NVIDIA H100 GPU 上，LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second（每秒框数），超过 Qwen3-VL 的 1.1 BPS，也高于 Rex-Omni 的 5.0 BPS。

高精度工作中，LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1，高于 Rex-Omni 的 20.7；ScreenSpot-Pro 均匀 F1 达 60.3；DocLayNet 和 M6Doc 别离达 76.8 与 70.1。

IT之家附上参考地址

　

【编纂者：郭育维】

有关标签

吃惊马拖行女童致死马主被立案窥伺千年吴越有了“游览指南” 荆门颁布十条文旅线路荆门欧美同学会国际文化互换工作委员会成立 A股5月“开门红” 科创50指数涨逾5%

文章点评

未查问到任何数据！

颁发评论

◎迎接参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】