k8凯发天生赢家

新闻中心 新闻中心

英伟达推出LocateAnything ,主打AI高速、高精度检测对象

IT之家 5 月 30 日新闻 ,

作者:林怡威
颁布功夫:2026-06-03 13:35:07
阅读量:1985

英伟达推出LocateAnything ,主打AI高速、高精度检测对象

IT之家 5 月 30 日新闻 ,英伟达昨日(5 月 29 日)颁布博文 ,颁发携手香港理工大学、漯河大学等 ,推出 LocateAnything 模型 ,主打高速、高精度检测对象 。

该模型能够从照片或截图中找出指定对象 ,并用检测框标出地位 ,重点服务机械人感知、电脑自动操作等必要急剧定位的场景 。

NVIDIA 在介绍中强调 ,机械人和 AI Agent(智能体)仅能“看见”还不够 ,还必须足够快地确认指标地位 。LocateAnything 萦绕检测框预测重新设计 ,让视觉说话检测更适合即时交互工作 。

LocateAnything 提出 Parallel Box Decoding(并行框解码) ,把天堑框或点作为固定长度原子单元 ,在 1 步内预测 x1、y1、x2、y2 。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

Fast Mode 面向端侧机械人和具身智能 ,强调吞吐;Slow Mode 左袒离线标注和高精度评测;Hybrid Mode 默认急剧输出 ,遇到体式异;蚩占淦缫迨鼻谢刈曰毓榻饴 。

团队还构建 LocateAnything-Data ,蕴含 12M 独立图像、138M 说话查问和 785M 天堑框 。数据覆盖通用检测、GUI 元素定位、指代表白理解、OCR 文字定位、版面定位和点定位 ,显著扩大训练场景 。

在单张 NVIDIA H100 GPU 上 ,LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second(每秒框数) ,超过 Qwen3-VL 的 1.1 BPS ,也高于 Rex-Omni 的 5.0 BPS 。

高精度工作中 ,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1 ,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 均匀 F1 达 60.3;DocLayNet 和 M6Doc 别离达 76.8 与 70.1 。

IT之家附上参考地址

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】