k8凯发天生赢家

DeepSeek给AI装了根赛博手指，因而它能看见了

五一假期前一天，DeepSeek忽

作者：高玉凤

颁布功夫：2026-06-03 05:54:48

阅读量：9095

DeepSeek给AI装了根赛博手指，因而它能看见了

五一假期前一天，DeepSeek忽然抛出来一份视觉多模态技术汇报。

点开之前，我内心或许是有个预期的，无非就是具体能看到多远、看得多明显。

终于从前一年，多模态模型根基都在往这个方向卷。OpenAI讲thinking with images，让模型在推理过程中裁剪、放大、旋转图片；Gemini、Claude也都在设法子让模型处置更高分辨率、更复杂的视觉输入。

各人的共同如果是，只有模型看得更细，视觉推理天然就会更强。

但DeepSeek这份汇报看下来，你会发现，他们齐全走上了另一条路。

DeepSeek没有把重点放在“让模型看到更多像素”上，他们把把稳力放在了一个更底层的问题上。

就算模型已经看分了然，但是它在推理过程中，你怎么能保障模型和你指的是统一个器材？

其实这是多模态推理里最容易被忽略的死穴。

人类看图时，能够用手指去象征对象。好比“这幼我是谁谁谁”、“那幼我是谁谁谁”。但模型哪知路你说的这个是哪个？

模型只能用说话说“左边那个”“上面那个”“这条线”。一旦画面复杂起来，说话指代就会漂移，推理也会随着崩。

因而DeepSeek就说了，那就给模型一根“手指”不就完了？

它把点和天堑框造成模型思虑时的根基单元，让模型可能一壁用这根赛博手指指着对象，一壁进行推理。

从陆续视觉到离散符号

DeepSeek在这份技术汇报里，提出了一个很有意思的问题。他们以为，多模态模型真正难的处所，不是看见图像，而是在陆续推理过程中不变地指向统一个视觉对象。

就好比你跟你的伴侣说“菜市场里，张老太太的那个摊位卖的菜最新鲜”。但是菜市场里老头老太太多了去了，哪个是张老太太？

但若是你直接用手指着说“就是那个”，你伴侣就会顿时领略。

DeepSeek将这个问题定名为“引用天堑”(Reference Gap)。

从前一年，险些所有前沿多模态模型都在解决“感知天堑”(Perception Gap)这个问题。

如果说有一张照片放在你刻下，若是照片太吞吐、分辨率太低，你可能看不明显里面的幼字或者远处的细节。AI也一样，若是输入的图像质量不够、处置方式不合，它就会“看不清”，这就是感知天堑。

GPT、Claude、Gemini这些模型不休提高分辨率，引入高分辨率裁剪、动态分块、多尺度处置，主张就是让模型能看到更多细节。

这个方向当然有价值，但DeepSeek在汇报里指出，就算模型看得再明显，在复杂的空间推理工作上，依然会出现逻辑崩溃。

问题出在天然说话自身。

照片里有十几只狗，你说“左边那只狗”，那模型就没法子理解你说的具体是哪只。

还有更绝的，若是你让模型数一下照片里狗的数量，那么模型在推理过程中很容易就搞不明显自己已经数过哪些、还有哪些没数。

汇报中还提到了迷宫导航这样极端的情况，纯说话底子无法正确描述不规定状态的蹊径和复杂的拓扑关系。

说话作为一种指代工具，在陆续的视觉空间里天生就是吞吐的。它善于抽象概想和因果关系，但在空间定位和拓扑关系上，说话的表白能力存在底子性的局限。

可DeepSeek自身就是个通用的说话模型，那应该怎么解决呢？

因而就有了文章开头提到的这根“手指”。

他们提出的主题概想是“视觉基元”(Visual Primitives)，具体来说就是把天堑框（bounding boxes）和点（points）这两种推算机视觉里最基础的空间象征，提升为“思想的最幼单元”。

以前的多模态模型固然也能画框标注物体，但只是在最后给你看个了局，证明“我找到了”。就像考试时，你只交答案，不写解题过程。

也有一些钻研让AI在思虑过程中画框，但主张只是为了“看得更准”，框框只是个辅助工具。就好比你做数学题时用草稿纸，草稿纸只是助你算得更明显，不是解题思路的一部门。

DeepSeek要做的齐全分歧。

他们把这些空间象征直接嵌入到模型的推理过程中，让它们成为推理的有机组成部门。模型在思虑的时辰，不只是用说话描述“我看到了一只狗”，还同时输出“我看到了一只狗，它在这里：[[x1,y1,x2,y2]]”。

这个机造被DeepSeek称为“边推理边指向”(point while it reasons)。

模型的每一步思虑都锚定在图像的具体坐标上。

技术汇报里就给了这样一个例子：模型从起点启程，一路索求、回溯、再尝试，最后输出了一串齐全的坐标蹊径，每个坐标都对应迷宫里走过的一个点。

这样一来，模型就不会在推理过程钟装迷途”。它不会搞不明显自己在说什么、指什么。每个视觉对象都有了明确的空间锚点，推理过程变得可追踪、可验证。

这条技术路线和OpenAI的方向形成了有趣的对比。

OpenAI在o3和o4-mini的官方介绍里明确提到了“thinking with images”的概想，即模型能够把图像纳入推理链，并通过裁剪、放大、旋转等方式处置图像。这个方向的重点是让图像自身成为思想链的一部门，模型能够在推理过程中天生新的图像、批改图像、对图像进行操作。

OpenAI的路线强调的是通用能力，视觉、代码、搜索、文件、工具挪用一路合作。模型占有一个壮大的“视觉工作台”，能够矫捷地处置各类视觉工作。

DeepSeek的路线则更“符号化”一点。它让坐标进入思想链。模型在推理文本里显式写出天堑框和点的坐标，把视觉对象造成推理时可复用的锚点。

这就导致，OpenAI的视觉推理发生在内部，用户只能看到最终答案和必要诠释，中央的视觉处置过程是黑箱。DeepSeek则有意把中央视觉锚点显式化，让推理过程齐全通明。

DeepSeek这样做，益处是推理过程更容易被训练、查抄和打分。这也让它更容易设计体式、质量和工作级嘉奖。尤其在迷宫、蹊径追踪这类工作中，能够对蹊径合法性、轨迹覆盖度等给出更细的反馈。

模型不只是学会输出正确答案，更是学会了用视觉基元进行推理的步骤。

效能才是主题

DeepSeek这份汇报里有一个很容易被忽略但极其重要的细节，他们的模型在处置图像时，用的token数量远远少于其他前沿模型。

汇报里有一张对比图，展示了分歧模型处置一张800×800分辨率图像时亏损的token数量。

Gemini-3-Flash约1100个，Claude-Sonnet-4.6约870个，GPT-5.4约740个，Qwen3-VL约660个，DeepSeek约361个，并在KV缓存里只保留约90个条款。

这个差距不是一点点。DeepSeek用的token数量只有Gemini的3分之1，KV缓存条款更是只有10分之1左右。

这种极致的效能是怎么实现的？

DeepSeek用了一个接装压缩稀少把稳力”(Compressed Sparse Attention, CSA）的机造。

你能够这样理解，如果说你给伴侣看一张全家福，你不会说“从左数第237个像素起头有一块红色区域……”，你会直接说“左边是我妈，右边是我爸”。

DeepSeek-ViT先把图像压成更少的视觉token，CSA再把这些视觉token在KV缓存中的暗示进一步压缩。

这个机造在DeepSeek-V4-Flash模型上就使用过，此刻被利用到了视觉多模态之中。

具体的压缩流程是这样的。一张756×756的图像，蕴含571536个像素。这些像素首先经过ViT处置，以14×14的patch size切分，天生2916个patch token。而后进行3×3的空间压缩，把每9个相邻的token沿着通路维度压缩成1个，造成324个视觉token。

这324个token进入大说话模型进行预填充。最后，CSA机造会把这些视觉token在KV缓存里再压缩4倍，最终只保留81个条款。

从571536个像素到81个KV缓存条款，整个压缩比达到了7056倍。

通常AI大厂都是在用暴力步骤去堆推算资源，而DeepSeek则是在信息论层面去做弃取，只留下最直观易懂的信息。

其最直接的了局，就是推理速度变快了很多。

图像token数量直接影响模型的推理延长。在自回归天生过程中，每天生一个新token，模型都必要对之前所有token的KV缓存进行把稳力推算。若是图像占用了1000个token，那么每次天生都要对这1000个token做把稳力。若是只占用90个，推算量就大幅削减。

对于必要实时响应的利用场景，好比机械人视觉、自动驾驶、实时视频分析，推理速度的提升起到了决定性作用。

而后它内存占用得也少。

KV缓存是大模型推理的内存瓶颈。出格是在处置长高低文或批量推理的时辰，KV缓存会占用大量显存。DeepSeek把视觉token的KV缓存压缩到90个条款，意味着能够在同样的硬件上处置更多图像，或者处置更长的多轮对话。

这对于现实部署极度重要。好多公司的多模态模型在尝试室里阐发很好，但一到现实部署就遇到成本问题。每张图片亏损的token越多，推理成本就越高，可支持的并发用户就越少。DeepSeek的效能优势在规；渴鹗被岜环糯。

同时也变相提高了模型的高低文容量。

若是一张图片要占用1000个token，那么在一个128k的高低文窗口里，只能放100多张图片。若是只占用300个token，就能够放400多张。这对于必要处置多图对话、长视频分析、大量文德讽解的场景至关重要。

DeepSeek的模型能够在一个对话里处置更多图像，能够对比分析几十张甚至上百张图片，能够追踪视坡凤的持久变动。

最关键的是训练成本。

固然汇报重要讲推理效能，但这种压缩机造在训练阶段同样有效。更少的视觉token意味着更幼的推算图，更快的训练速度，更低的硬件要求。

DeepSeek一向以“用更少资源做出更好成效”著称。从R1的强化进建训练，到V4的MoE架构，再到此刻的视觉多模态，这种效能优先的哲学贯通始终。

但这里有一个关键问题。压缩会不会损失信息？

DeepSeek并没有否定压缩会带来信息损失。它的主张是，在这组空间推理和计数工作上，压缩后的表征依然足够有效。

每一步压缩都在保留对推理最重要的信息，抛弃冗余和噪声。

其实前面提到的DeepSeek的视觉基元机造，它自身也是一种信息压缩。一个天堑框用4个数字就能精确定位一个物体，一个点用2个数字就能象征一个地位。这些离散符号携带的信息密度远高于原始像素。

从尝试了局看，这种压缩没有侵害机能，反而在某些工作上带来了提升。

这注明对于好多视觉推理工作，瓶颈不在于看得不够明显，而在于没有找到相宜的表征方式。

这种效能优势还证了然多模态智能不愿定必要更大的模型、更多的算力、更高的成本。

从DeepSeek时刻诞生至今，这家公司一向有一条暗线，“真正的智能不在于算力，而在于对问题性质的理解”。

当你真正理解了视觉推理必要什么，你就不必要那么多token。当你找到了相宜的表征方式，你就不必要那么大的模型。

从这个角度看，DeepSeek的极致效能不是主张，而是副产品。真正的主张是找到视觉推理的正确范式。效能只是证了然这个范式是对的。

未竟之事

DeepSeek在汇报的局限性部门，坦诚地列出了当前步骤存在的几个问题。这些问题不是技术细节上的幼瑕疵，而是指向了视觉推理的下一个阶段。

第一个问题是触发词依赖。

汇报里明确说，当前的“用视觉基元思虑”能力必要显式的触发词（explicit trigger words）能力激活。也就是说，模型还不能天然、自主地决定“什么时辰该画框、打点”。

它意味着模型还没有真正学会判断什么时辰必要使用视觉基元，什么时辰用说话就够了。

梦想的情况是，模型应该能凭据工作的性质自主决策。但当用户问“数一数图里有几只狗”的时辰，模型应该自动切换到视觉基元模式，用天堑框来辅助计数。

从技术上说，这必要在模型里成立一个元认知层。这个元认知层能够评估当前工作的复杂度，判断纯说话推理是否足够，决定是否必要挪用视觉基元。

DeepSeek目前还没有实现这个元认知层，但他们已经明确了方向。将来的版本可能会让模型学会自主决定推理战术，而不是依赖表部触发。

第二个问题是分辨率限度。

汇报提到，受输入分辨率限度，模型在细粒度场景下的阐发还不够好，输出的视觉基元有时不够精确。

这个问题和DeepSeek的效能优先战术有关。为了节造token数量，他们限度了视觉token的领域在81到384之间。对于超出这个领域的图像，会进行缩放处置。

这种设计在大部门场景下是合理的，但在一些必要极高精度的工作上就会遇到瓶颈。好比医疗影像分析必要鉴别微幼的病灶，工业质检必要发现轻微的瑕疵，这些场景对分辨率的要求很高。

DeepSeek在汇报里提到，这个问题能够通过整合现有的高分辨率步骤来解决。也就是说，他们的视觉基元框架和传统的高分辨率裁剪步骤不是对抗的，而是互补的。

我感触DeepSeek能够出个混合规划。

具体就是对于大部门通例工作，使用压缩的视觉表征和视觉基元推理，维持高效能。对于必要细粒度分析的部门区域，动态挪用高分辨率裁剪，提取更具体的视觉信息。这样既维持了整体效能，又满足终部门精度需要。

这种混合规划的关键是让模型学会判断哪些区域必要高分辨率处置。因而这就又回到了刚才元认知的问题上。

第三个问题是跨场景泛化。

汇报提到，用点作为视觉基元来解决复杂拓扑推理问题依然很难，模型的跨场景泛化能力有限。

这个问题在迷宫导航和蹊径追踪工作上阐发得比力显著。固然DeepSeek在自己构建的测试集上达到了66.9%和56.7%的正确率，超过了其他模型，但这个数字自身还不够。

更重要的是，这些工作都是在合成数据上训练和测试的。迷宫是用算法天生的，蹊径追踪的曲线也是法式化绘造的。当模型遇到真实世界里的拓扑推理问题时，好比在真实地图上规划蹊径，在复杂管线图里追踪衔接关系，阐发可能会降落。

DeepSeek的步骤是通过大规模、高多样性的数据来提升泛化能力。他们爬取了97984个数据源，经过严格过滤后保留了31701个，最终得到超过4000万个样本。在迷宫和蹊径追踪工作上，他们也设计了多种拓扑结构、视觉风格、难度等级，试图覆盖尽可能多的变动。

然而数据多样性只是泛化能力的一部门。模型是否真正理解了拓扑推理的性质？还是说它只是记住了训练数据里的模式而已？

另表，DeepSeek的视觉基元是一套新的表征系统，必要专门的数据体式、训练流程、评估步骤。这和现有的多模态生态不齐全兼容。

大部门多模态数据集和评测基准都是基于传统的“图像+文本”范式设计的，没有思考视觉基元。若是要在这些基准上评测DeepSeek的模型，要么必要关关视觉基元职能，要么必要重新设计评测步骤。

其他钻研者若是想复现或改进这个工作，必要重新构建整个数据和训练流程，门槛比力高。

DeepSeek能在汇报中谈及这些问题，注明他们对自己的工作有复苏的意识。

这可能比给出美满答案更有价值。由于真正推动社会进取的，往往不是答案，而是问题。

　

【编纂者：黄宜洁】

有关标签

金门：今年已有近六万陆客赴金，99%为幼我游女孩沉迷二次元花掉家中18万积储今年开分最高的国产电影，每一件路具都是华侨的情书内蒙男子求免费蒜薹河南网友邮寄

文章点评

未查问到任何数据！

颁发评论

◎迎接参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】