起源:有些学堂为什么装了空调却不用作者:
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练
作者 | 樊雅婷邮箱 | fanyating@pingwest.com
GPT Image 2 凭什么这么强?
是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?
这些答案都对,但都不够。
以下是我们与多位从业者互换后,提炼出的几个值得关注的技术方向,并尝试做出更清澈的诠释。
先给结论:OpenAI 很可能已经不在“纯扩散模型」剽条主赛路上了。他们已经把图像天生从“美术课”调到了“语文课”——用一个能读懂指令、能记住高低文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素天生,可能由扩散组件或其他解码器实现。
而这个LLM,极大可能是GPT-4o。
支持这个推论的,首先是两条直接线索。
1. 模型自述
2. C2PA溯源验证
C2PA 是一种内容溯源尺度,相当于给每张 AI 天生的图打上一个数字身份证。任何人拿到这张图,都能查到它是由 GPT Image 2 天生的、天生功夫是什么、经过了哪些批改。
有专业人士在metadata2go.com上对image 2天生的图片进行元数据提取。发此刻actions_software_agent_name一栏上纪录着GPT-4o。
这也能理解为什么这次image 2的阐发惊人了。
图片源于: 【深刻调查:OAI最新图像模型底层是GPT-4o - 祈星函 | 幼红书 - 你的生涯兴致社区】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share
单凭这两条当然不及以拆解全数奥秘。但当我们带着“LLM 主导”的假定回头审视它的每一项能力跃迁时,这些变动,忽然有了统一的诠释。
一、图像语义,从像素到token
从前两年,AI 生图领域有一条不成文的鄙夷链:Midjourney 掌管美学,Stable Diffusion 掌管可控性,DALL·E 掌管……嗯,掌管被 OpenAI 颁布。但不论你站哪一队,有一件事是所有人的共识——文字是 AI 的鬼门关。
你能让 AI 画出逆光下缅因猫毛发的半通明质感,却无法让它写对牌号上的“Coffee”六个字母。一个能理解顶级光影描述的模型,在文字上给出的了局似乎楔形文字。这件事的怪诞与本原,就藏在扩散模型的工作道理里。
先寺珐散模型为什么写不好字?
由于它的主题是一个从噪声中还原图像的“雕塑家”:
训练时,向清澈照片逐步撒噪声,直到造成纯电视雪花,模型进建逆向去噪。
天生时,从一片随机噪声起头,每步都靠 U-Net 预测并擦除噪声,几十步迭代后“雕”出毛发、虹膜和光影。
这个过程性质上在还原陆续的、能够用概率无限逼近的纹理。毛发能够稍微硬一点或软一点,色彩能够偏暖 5%,无伤大雅。
但文字是离散符号,不存在“像不像”,只佑装是不是”。字母 A 就是 A,你不能给它加 15% 的 B 和 8% 的 C 还指望它依然是 A。扩散模型的每一步去噪都是一个微幼“估计”,用在纹理上是风格,用在文字上就是 O 变 0,或是拼出 WElcOm e。
最终就成了表行眼中的“楔形文字”。
不仅如此,扩散模型天然不足跨轮编纂的不变一致性。你让它改一个部门,它性质上是整张图重新画一遍,没扭转的处所也会偷偷漂移。
但GPT Image 2此刻不仅能“写对字”,还能维持“有影象”的一致性例如:你批改一个字之后,周围的文字会自动调整间距;当你把“咖啡”改成“红茶”,它不只是代替那个词,而是连带把杯子的色彩从深棕调成了琥珀色。
这注明文字在它的系统里不是图层标注,而是画面语义的一部门。文字内容的扭转会像说话中的主语代替一样,连锁驱动画面其他元素的合理变动。
GPT Image 2 与其他模型对比图
它不再把图像当图像看,而是把图像当说话看。
这听起来像玄学,但其实是个很具体的工程选择。要理解这件事,得先搞领略一个概想:Tokenizer。
Tokenizer 的作用是把一衷祺材“翻译”成另一衷祺材。GPT 处置文字前,会先把“你好」剽个词切碎编号,造成一个数字 ID,好比 [11892]。这是文本 token 化。
图像能不能也这么干?当然能。你把一张图切成 16×16 的网格,每个格子编个号,也是一种 token 化。但这种做法太笨重——一张 1024×1024 的图会造成几千个 token,LLM 还没起头画就先被淹死了。
所以从前两年,各家大模型公司在拼一件事:怎么把一张图压成尽量少的 token,同时还不丢关键信息。
这事有多难呢?设想你是一个谍报员,要把〖娜丽莎》用一封电报发出去。电报局划定你最多只能发 256 个字。你怎么办?你不能说“一个女人在笑”,由于对方画不出来;你也不能逐个像素描述,由于字数不够。你必须发现一套只有你和对方懂的密语——“52号微笑、3号布景、17号手势”——对方收到后能八九不离十地还原出来。
这就是 OpenAI 在 tokenizer 上干的 事。从 CLIP 到 DALL·E 再到 GPT-4o,他们逐步构建了一种可能在视觉与说话之间进行映射的语义暗示系统。
这意味着:图像和文本被投影到了统一个对齐后的语义 embedding 空间。
此刻在 LLM 眼里,“一只逆光的缅因猫」剽行字,和一张逆光缅因猫的照片,是统一个语义空间里的两套坐标。它能像理解文字一样理解图像,也能像天生文字一样天生图像。
所以当你说“把第三行公司名改成团伙名”,它不是在建图软件里找那个图层,而是在改写一段描述这个画面的密文。改完后,解码器再把密文翻译回像素。
这就是为什么文字忽然能写对了。由于对 LLM 来说,写一个W和写一个我,没有任何性质区别——都是它在密语系统里调整几个 token 的事。
既然 GPT Image 2 很可能把图像造成了语义密文,那这串密文怎么变回一张能看的图?
若是直接把 token 映射成像素,画质必然一塌糊涂,这是自回归模型的通。核松朴诰龆ɑ裁,却不太善于画得好看——就像构筑系教授徒手画成效图,空间关系全对,笔触就是不及美院学生。
而扩散模型正好相反,纹理光影以假乱真,却时时不知路自己在画啥。因而,一个高度自洽的揣摩浮现:让两款模型打共同。
自回归掌管定调:凭据你的 prompt 天生那几百个语义 token,敲定画面里有什么、它们的地位关系、整体构图逻辑。这一步决定了“听得懂”,也保障了多轮编纂时对批改对象的影象与一致性。
扩散掌管润色:拿到这串语义 token 后,不再掌治理解内容,只掌管填充高保真像素,把既定框架造成光影天然的成图。这一步决定了“画得好”。
这不是理论空想。Google 发过一篇叫 Transfusion 的论文,Meta 搞过 Chameleon,走的都是类似路线。
当然,这所有都是基于公开信息和模型阐发的揣度。
OpenAI 有没有在用?2026 年 4 月的媒体味上,OpenAI 回绝回覆任何干于模型架构的问题。回绝自身就是一个信号。
若是这个如果成立,那就诠氏缢所佑转—文字写对是由于自回弃世然懂离散符号;多轮编纂一致是由于自回归记住了那一串 token;画质没崩是由于扩散在最后一关做了精密渲染。
二、数据飞轮,GPT-4o 自己教自己生图
但上文那个能把图像压成几百个 token 的“密语系统”,到底是怎么训出来的?为什么不是此外模型,偏偏是GPT-4o?
答案藏在一件看起来最没有技术含量的事里:数据标注。
在 AI 圈,数据标注持久处于鄙夷链底端。钻研员聊架构能够聊一晚上,聊数据标注三句话就冷场。但 GPT Image 2 这次的阐发,甚至批注OpenAI 可能已经不必要人为标注了。
而GPT-4o 自身就是全世界最强的图像理解模型之一。你给它一张图,它能写出一段比真人标注师还细腻的描述。所以OpenAI 能够把从前几年堆集的几十亿张图片,重新“过一遍水”——用 GPT-4o 天生新的、高维度的标注。
但到这里,只解决了“描述”的问题,没解决“筛选”的问题。一个模型天生一百张图,并不是每一张都值得拿来当下一轮训练的教材。这里必要一套严格的“质检”机造——在机械进建里,这叫回绝采样。
具体来说就是,GPT-4o 先凭据一段 prompt 天生一批图像,而后凭据美学偏好、指令匹配度、物理合理性等多条尺度,逐张打分。批到切合前提的才“收下”,连同它为自己撰写的具体解析,一路塞进下一轮训练集。批到不合格的就直接抛掉。这保障飞轮里的数据不是在低水平循环,而是在有选择地自我提纯。
上一代模型给下一代模型当教员,下一代模型再给下下代当教员。每转一圈,对世界的理解就深一层。
各人的差距也在这个过程中越来越大。这也诠氏缢为什么Midjourney在画质上能和OpenAI掰伎俩,但在指令遵循和文字渲染上被拉开代差。
当然,听上去像个永动机圈套——自己教自己,那不得越教越傻?学术界的确有这个忧郁,管它叫模型崩溃:模型反复吃自己吐出来的器材,会逐步迷失散布的尾部信息,天生了局越来越单一、越来越平淡。
但OpenAI在文本侧已经证明:只有教员模型足够强,并且共同回绝采样这样的严格筛选机造,这事不只不会崩,还能加快,形成数据飞轮。
这个飞轮里还有一个重要且难搞的角色——RLHF 在图像侧的质检员。
我们在文本侧已经习惯了 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化进建):给一段文字打分,判断它有效、有趣、切合人类偏好,这件事 GPT-4o 做得很好。
但在图像侧,难度骤升。由于质检员必要同时盯住三条线:美学偏好;指令遵循;安全过滤。
三条线的尺度各不一样,甚至相互矛盾。一路强光影可能很“好看”,但压暗了 prompt 里要求的某个细节,就会被“指令遵循”扣分。一层安全滤镜可能误伤正常的医学解剖图,又得回头调阈值。这种多维度衡量,在文本侧已经跑通,但在图像侧变得前所未有的复杂。
而 OpenAI 之所以能做成,很可能是由于他们把图像侧的问题全数拉回了自己最善于的战。核祷袄斫。
美学偏好被转译成一段构图评语,指令遵循被转译成一组约束前提的查对清单,安全过滤被转译成一套规定判例。所有判断最终都落到了 LLM 的语义空间里。
可能这才是数据飞轮真正的底牌。不是数据多,而是从标注、筛选到打分,全链路都被统一到了一个理解框架里。回绝采样掌管海选裁减,RLHF 掌管精建调优,两者共享一套语义尺度,飞轮才转得起来。
三、工程解法,两全推理速度和对话整合
到这里,我们聊的都是成效。接下来聊一个时时被刻意绕开的话题:推理速度。
先不说审美和一致性上的飞跃,且说一个看似矛盾的景象:生图质量跃升了一个代际,但速度并没有显著变慢。这自身就是一种工程事业——OpenAI 是怎么做到的?
自回归模型的运作方式是逐 token 天生——每个 token 都依赖上一个 token 的实现。扩散模型则分歧,它能够在整张画布上并行去噪,一次处置所有像素。按理论推算,若是 GPT Image 2 确实用了自回归架构,它的推理延长应该比纯扩散模型逾越一个数量级。
但现实履历是:没有。
第一条线索:Token 压缩率可能远超预期。 若是一张 1024×1024 的图只必要 256 个 token 就能齐全描述,对 Transformer 来说就是一次呼吸的事。这意味着 OpenAI 不仅做到了语义对齐,更在压缩率上做到了极致,把高信息密度浓缩到几行字的水平。
第二条线索:推理架构的深杜着化。 混合架构中,自回归天生的是粗粒度的语义 token,决定“画什么”,不掌管“画成什么样”。天生步骤大幅缩短,扩散模型只用在最后一幼段“按图施工”,而不是重新噪到尾。
第三条线索:投契解码(Speculative Decoding)可能被用到了图像侧。 用一个更幼的“草稿模型”急剧天生候选 token,再由大模型一次性验证,这套 LLM 推理加快经典技巧若是用在图像 token 上,速度能够成倍提升。OpenAI 在 GPT-4 时期已把这套玩熟,移植到图像侧没有道理阻碍。
所以结论是:GPT Image 2 的快,不是由于扩散模型变快了,而是由于可能它把最慢的语义规划,从扩散模型手里抢了过来,交给了善于急剧推理的 LLM。
比速度更影响履历的,是与对话系统的整合。
在传统图像天生工具中,例如 Midjourney 或基于 Stable Diffusion 的工作流,用户通常通过编写 prompt 来节造输出了局。固然这些工具已经支持诸如variations、inpainting和汗青纪录等职能,但整体流程依然以“单次输入 → 单次输出”为主,用户必要通过屡次尝试逐步逼近指标成效。
这种过程在实际中往往阐发为反复试错:
用户凭据了局调整 prompt,但模型对指令的理解水平并不齐全通明,因而必要多轮迭代来校对误差。
相比之下,集成在对话系统中的图像天生引入了陆续高低文机造,扭转了交互方式。
用户能够在多轮对话中逐步细化需要
模型可能利用对话汗青理解“当前批改”对应的对象或属性
批改要求能够以更天然说话的大局表白,而不必要一次性写出齐全 prompt
例如,在多轮交互中,用户能够先天生一个基础场景,再逐步提出部门批改(如色彩、地位、风格)。最后,模型基于高低文天生新的了局。
对话式交互还带来另一个优势:需要澄清能力clarification。将吞吐的天然说话意图,逐步转化为更具体的天生前提,从而提高天生了局与用户预期之间的一致性。
在 GPT Image 2 出现之前,AI 生图领域的会商框架是这样的:
“扩散模型的缩放定律还能走多远?”
“DiT 架构和 UNet 架构谁更优?”
“Flow Matching 会不会取代 DDPM?”
“多模态对齐的损失函数怎么设计?”
这些问题都有价值,但它们共享一个隐含前提:图像天生是一个独立的、必要专门架构来解决的问题。
而GPT Image 2 给出的的回覆是:不愿定。
若是我们把镜头再拉远一点,GPT Image 2 的呈显熹实指向了一个更大的命题:世界模型。
让我们重新思虑什么是天生,以及世界。
点个“爱心”,再走 吧
@谢力郁:少司缘裸体 开腿裸体小说,中国光纤行业进入疯狂时刻了吗@李雅惠:美正研拟暂停对台140亿美元军售打算
@黄良财:大衣哥“10万出场费干出100万诚意”
热点排行
- 1 www.人人干
- 2 纪湘一战4视频原版播放方法
- 3 91蝌蚪网
- 4 日本xxww
- 5 被帅哥操
- 6 ww.17c
- 7 色哟哟一区二区
- 8 自慰 免费网站com
- 9 braazersxe馃崋HD