k8凯发天生赢家

新闻中心 新闻中心

李飞飞造了ImageNet ,此刻她又带人超过了它

编纂|Panda

作者:黄莉秋
颁布功夫:2026-06-02 13:14:09
阅读量:2

李飞飞造了ImageNet ,此刻她又带人超过了它

编纂|Panda

2012 年 ,AlexNet 在 ImageNet 较量上以压倒性的优势拿下第一 ,正式开启深度进建时期。尔后十余年 ,ImageNet 成为推算机视觉钻研的「尺度科场」:无论是 VGG、ResNet ,还是 ViT ,钻研者们都在这统一张卷子上比拼 ,看谁的模型精度更高。

但这张卷子 ,如今已经没有评分的意思了。

今年 ,一批顶尖论文相继宣告:它们在 ImageNet 上的天生质量评分(FID) ,已经低于真实图片自身的评分。也就是说 ,天生的假图片 ,在统计上比真图片「更像真图片」。卷子刷穿了 ,分数失真了 ,这个沿用十年的基准彻底鼓和。

基准鼓和意味着什么?单一来说:你不再能通过度数判断一个天生模型是真的好 ,还是在「投契取巧」地优化指标?蒲Ь赫 ,必要一把新的尺子。

就在前两天 ,斯坦福大学等机构颁布了一个名为GPIC(Giant Permissive Image Corpus ,巨型盛开图像语料库)的数据集。

项目共一作者 Keshigeyan Chandrasegaran 的推文

该项目由李飞飞团队主导构建 ,主题贡献者为 Keshigeyan Chandrasegaran 和 Kyle Sargen ,蕴含整整1 亿对图像-文本数据 ,总计约28 万亿像素 ,并已全量托管在 Hugging Face 上 ,任何人都能够免费下载使用。

旧规定失灵了

要理解 GPIC 为什么重要 ,先要理解当前的视觉天生钻研面对哪些困境。钻研者们在使用已罕见据集时 ,遭逢了三个相互叠加的麻烦。

第一个麻烦:旧基准 ImageNet 已经对不上现实

今天的图像天生模型 ,训练用的是数亿张带有天然说话描述的图片 ,天生时也靠文字提醒词驱动。而 ImageNet 是一个以「分类标签」为主题的数据集 ,它对应的是另一个时期的钻研范式。拿一张用文字提醒天生的图片 ,去和一个以标签分类为指标设计的数据集做比力 ,性质上是「用语文考卷评数学成就」。

第二个麻烦:大无数工业级数据集不合表盛开

Stable Diffusion、Midjourney、Sora 这些一线产品背后 ,训练数据要么是贸易机密 ,要么涉及版权纠纷 ,从未公开。学术界要复现、比力、改进这些模型 ,险些无从下手。

第三个麻烦:即便有盛开数据集 ,也不不变

目前学界常用的盛开数据集(如 LAION、DataComp) ,普遍选取「URL 索引」的方式分发——也就是说 ,钻研者下载到的 ,其实是一份图片网址清单 ,还得自己去抓取原始图片。随着功夫推移 ,大量链接失效 ,分歧钻研团队最终用到的「统一个数据集」其实已经天壤之别 ,尝试了局天然无法靠得住比力。

GPIC 的设计 ,正是针对这三重失灵逐一作答。

论文标题:GPIC: A Giant Permissive Image Corpus for Visual Generation论文地址:https://arxiv.org/abs/2605.30341项目地址:https://gpic.stanford.edu/

来自 ImageNet 作者的交班人之作

构建 GPIC 的团队 ,来自斯坦福大学 ,蕴含李飞飞、吴佳俊以及他们的多位学生。

李飞飞是「ImageNet 时期」的缔造者之一。2009 年 ,她主导颁布了初版 ImageNet ,后出处此衍生出 ILSVRC 视觉鉴别挑战赛 ,催生了 AlexNet 等一系列里程碑式工作 ,被宽泛以为是深度进建革命的重要推手之一;她也因而还被《时期》杂志和 BBC 等很多媒体称为是 AI 的教母(Godmother of AI)。

图源:Time 官网

她如今是斯坦福人为智能尝试室(SAIL)的结合主任 ,同时也是 3D 空间智能公司 World Labs 的首创人。

这一次 ,她携带团队打造的是视觉天生时期的「新 ImageNet」。

GPIC 是什么 ,怎么做出来的

GPIC 的构建 ,经过了四个严格的流程阶段。

只采集有授权的图片

钻研团队仅从 Flickr 和 Wikimedia 两个平台网络图片 ,并严格限造在 CC BY、CC0、公有领域和无已知限度这四类授权领域内。这意味着 GPIC 里的每一张图片 ,都有明确的司法凭据 ,既可用于学术钻研 ,也可用于贸易产品开发 ,无需不安版权风险。初始网络到的图片约 1.1 亿张 ,其中 87.7% 来自 Flickr ,12.3% 来自 Wikimedia。

过滤低质量与有害内容

钻研团队借助视觉说话模型 Qwen3-VL-4B ,自动鉴别并移除分辨率过低、严重吞吐、过曝、近乎空缺 ,以及被判定为不安全的图片。这两类过滤别离裁减了约 0.3% 和 0.35% 的图片——比例看起来很幼 ,但在亿级规模下 ,这意味着筛掉了数十万张问题图片。

第三步:去重

互联网图片有大量的「反复」景象 ,蕴含统一场景的连拍、被转发的表情包、略有分歧的翻疆域。钻研团队使用了一种名为 SSCD 的图片复造检测模型 ,推算每两张图片之间的特点类似度 ,并通过「守旧去重」战术删除高相信度反复项。最终 ,约 101.3 万张图片留下 ,其中不含任何齐全一样的副本。

第四步:天生高质量描述文字

传统图片数据集的文字描述(如 alt text)质量往往很差 ,充溢着「photo.jpg」「未定名」之类无意思的标注。GPIC 则对每一张图片 ,都用 Qwen3-VL-4B 重新天生炼质量的人为智能描述 ,且描述依照「标签」「短」「钟坠「长」四种粒度散布。天生 1 亿张图片的描述 ,共亏损约 1500 个 H100 GPU·幼时。

最终的 GPIC ,蕴含 1 亿张训练图片、20 万张验证图片和 100 万张测试图片 ,总体积约 12.9 TB ,整顿成 8000 个吩飕(shard) ,能够直接流式传输用于大规模散布式训练。

数据集之表 ,GPIC 还附带了一套新的评估和谈 ,这同样是这次颁布的重要贡献。

旧的评估指标 FID(Fréchet Inception Distance)依赖一个 2015 年的图像分类网络 Inception-v3 来提取图片特点。这个网络从未为「评估天生质量」而设计 ,它的特点空间和人类对图像质量的感知存在显著的脱节 ,导致 FID 评分容易被「刷榜」——模型能够在不真正提升感知质量的情况降落低 FID 数值。

GPIC 的新基准选取FD-DINOv2作为重要指标。

DINOv2 是 Meta 于 2023 年颁布的自监督视觉特点模型 ,其特点暗示与人类对图像类似性的判断更为一致。

钻研者们验证发现:目前所有主流天生模型(蕴含那些用了 DINOv2 特点训练的模型) ,在 FD-DINOv2 上的分数依然高于真实图片 ,注明这把尺子还有足够的「余量」 ,不会很快被刷穿。

更重要的一点改进是:GPIC 的基准评分是与一个 独立的百万张测试集 进行比力 ,而不是和训练集比力。这个设计预防了一个严重的缝隙——若是拿天生图片和训练集比力 ,模型只需「记住」训练数据就能获得好分数 ,而无法反映真正的泛化能力。

给将来的钻研者:参考基线

为了方便后来者对齐尝试了局 ,钻研团队还在 GPIC-Full(1 亿张训练集)上训练了一个参考基线模型。

这个基线使用了JiT(Just image Transformers)流匹配架构 ,搭配 1.1B 参数的 Transformer 骨干网络 ,以 256×256 分辨率在单节点 8 张 H100 上训练约 40 幼时(约一个 epoch)。最终 ,在最优的疏导强度(CFG=6.25)下 ,基线模型的 FD-DINOv2 评分为 76.25。这个数字并不杰出 ,但它的价值在于:所有钻研者都能够以此为起点 ,平正地比力各自的改进成效。

钻研团队还提供了三个分歧规模的训练集版本:GPIC-Nano(100 万张)、GPIC-Lite(1000 万张)和 GPIC-Full(1 亿张) ,方便资源有限的团队在幼规模上迭代 ,有足够算力的团队再在齐全数据集上验证。

一个盛开基础设施的意思

视觉天生领域在经历一场「军备较量」。Sora、Imagen、Stable Diffusion 3……前沿模型的能力每隔几个月就会跃升一级。但这场较量 ,在相当水平上是不通明的:每个尝试室都在自己的数据上训练 ,用自己的指标评估 ,颁布时只遴选对自己有利的数字汇报。

公开、可复现的基准 ,是科学进取的基础。学界在 NLP 领域已经为此支出了多年致力 ,逐步成立起了 GLUE、SuperGLUE、BIG-bench 等相对尺度化的评测系统。视觉天生 ,迟迟短缺这样的基础。

GPIC 的颁布是一次为这个领域补课的尝试 ,是为了让整个领域有一个共同的起跑线。正如李飞飞团队在论文中所写的:「我们但愿 GPIC 可能推动视觉天生建模领域公开、可及、可复现的钻研。」

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】