当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek为什么不能处理音频、视频、图像信息？

3个月前 (07-16)DeepSeek技术交流366

这其实是一个非常有意思的问题，那就是DeepSeek最出圈的模型其实有两个，一个是DeepSeek-V3，另一个是DeepSeek-R1，巧了，这俩模型都只能处理文本信息。
什么是文本信息？你可以理解为数字、文字（中文英文意大利语非洲某个部落等都算）、标点符号、甚至表情包等，绝大多数能在键盘上敲出来的内容都算文本信息。
可能你没注意过，在DeepSeek的网页版，有个「回形针」按钮，它写着「上传附件（只识别文字）」，其实意思就是不管你上传来的是什么内容，它最多只能识别里面的文字部分。

可能有点儿难懂，那我们来做个实验，这是一张西红柿的照片，非常清楚。

扔给DeepSeek后给出提示「未提取到文字」。

再换一张，里面加上三个字「西红柿是一种蔬菜」，再试试。

你看，这样它就能被DeepSeek「处理了」，但从DeepSeek的结果来看，其实它根本理解不了图片内容，只是把我们加入的文字信息给识别出来了。

它的这种处理只是用了一种叫OCR的技术，它的原理如下图所示，把文字提取出来，其他的内容一概处理不了，像车牌号识别之类的都用的这类型技术。这也就说明了，DeepSeek V3/R1本身根本识别不了图片，是个只懂文字的AI大模型。
那什么才算是真正的可以识别图片的大模型？我们用老牌的大模型ChatGPT测试一下。
首先，这是一张只有西红柿，没有任何字的照片，ChatGPT很轻松且准确的识别出来了。

然后上点难度，加点混淆内容，也就是在西红柿图片上加一行字「这是黄瓜」

再问ChatGPT一次，你看它的回答，根本没有掉进我们预设的陷阱，它可以轻松的把图片信息和文字都提取出来，但同时还保持着理性，没有被图中的文字所误导。

这说明了，ChatGPT等标明了可以识别图像的，是的确可以理解图片内容的。
那是不是DeepSeek就没办法识别图像，对于V3/R1模型来说是的，因为他们本身设计的时候就没有图像识别功能。
但是DeepSeek还有一个系列，叫DeepSeek VL，V代表单词视觉Vision，L代表语言Language，这个模型是可以理解图片信息的，早在去年已经更新到第二个版本了，所以全名叫DeepSeek-VL2。

这是它的使用链接：https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small这里还有一个Colab可以免费使用的攻略：
https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab我们来做个测试，直接上混淆版的图片，DeepSeek-VL2这个模型也没问题，可以准确的识别图片的内容，图中有两个番茄，一个被切开，还能识别到果肉和种子；以及“这是黄瓜”这几个字。

所以，我们现在至少可以得出一个结论，那就是DeepSeek的VL2模型是可以处理图像信息的。
那么为什么DeepSeek-V3/R1名声这么大，却没有识别图像的能力，更别说音频和视频了，其实最终要归到网络结构上。
要理解这个网络结构的差异，我们首先要明白一个根本性的问题：文字、图片、视频和音频，这几种信息在“本质”上是完全不同的。
文字的表达虽然千变万化，但其基础是有限且离散的。简单点理解，那就是全世界所有的汉字加起来不过几万个，英文单词也是有限的。我们可以制作一本巨大的“词典”（在AI里叫“词表”或Vocabulary），把每个字、每个词都编上号。
AI处理文字，就像是查字典和按语法规则“造句”。因此，像DeepSeek-V3/R1这样的大模型，其整个“世界观”就是建立在这本巨大的“文字词典”上的，它只认识词典里的东西，所以并没有处理多模态的功能。
DeepSeek V3/R1的模型结构如下图所示，它最核心的部件叫Transformer，这个东西在DeepSeek设计之初，就限定了只能处理文字信息。

要处理图像、视频和音频就完全是另一回事了。它们是连续且无限的，就跟「世界上没有完全相同的两片树叶」原理类似。
一张图片由数百万个像素点组成，每个点的颜色值都可能有细微差别。你不可能做一本“像素词典”来收录世界上所有的图像组合。面对这种高维度的、连续的、充满冗余信息的“模拟信号”，传统的语言模型会彻底“短路”，因为它不知道该如何“查字典”。
要让DeepSeek这样的文本大模型听/看懂另一种模态，必须先插入一个 Encoder（编码器），这也是DeepSeek-VL系列的新增部件，如下图所示。
你可以看到DeepSeek LLM这个东西也就是DeepSeek V3/R1，下面的两个东西，就是把图像信息转换成语言的Encoder。

它的功能其实很好理解，编码器的功能就像一个‘首席分析师’，它看完图片后，并不会写出人类能懂的报告，而是输出一串只有语言模型（LLM）核心才能解读的‘加密电报’或‘数学密码’。这串密码浓缩了图片的一切，比如物体的形状、颜色和空间关系。
比如我让ChatGPT来模拟Encoder编码器的能力，它会输出下面的内容（比如对于图片的描述，还有图中文字内容与实际视觉对象（番茄）不符，具有幽默/讽刺意味），实际上它输出的内容并不是人类可以理解的文字，而是一堆数字，这里只是打个比方。

这个时候图像信息已经变成了文本信息，所以DeepSeek V3/R1可以处理了，这样也就明朗了。
这下应该可以彻底明白了，原本的DeepSeek设计就是「文本进文本出」。

而DeepSeek VL能够处理图像的原理如下图所示，本质上还是对于文本的处理，只不过文本需要先经过一道「翻译」的步骤，视频、音频等其他类型的信息原理是共通的，只需要加相对应的翻译官即可。

理解了编码器的作用，我们就能明白当今主流的多模态大模型，其实主要分为两种实现路径：
第一种是“嫁接型”多模态模型。这也是目前最常见的方式，DeepSeek-VL就是这个路子。它就像是给一个已经非常强大的“语言专家”（比如一个传统的大语言模型），外聘了一位“视觉专家”（也就是上面说的视觉编码器）。
当需要处理图片时，先让“视觉专家”把图片分析透彻，写成一份“摘要报告”，然后通过一个“翻译”交给“语言专家”去阅读和整合。我们前面提到的DeepSeek-VL系列，就属于这种“嫁接”模式。它的优势是能够站在巨人的肩膀上，快速整合现有成果，效果有保障。
第二种则是更前沿的“原生多模态”模型。这种模型的思想是，与其外聘专家，不如从一开始就培养一个“全能通才”。它在设计之初就没有区分视觉和语言，而是力求用一个统一的、端到端的网络结构，在训练的最初阶段就同时学习和理解混杂在一起的图像、文本等多种信息。它认为，无论是看图还是读字，对于一个足够强大的“大脑”来说，本质都是在处理信息。
后者典型例子就是OpenAI的GPT4o模型，它可以实现更为精细化的多模态信息处理，但是也有弊端，那就是模型的整体会非常庞大，以及训练的难度要比单一的文本大模型高很多。这种模型架构更简洁，理论上融合得也更深入，但其研发和训练成本也呈指数级增长，是未来发展的重要方向。
总而言之，下次当你使用一个AI工具时，如果它无法识别图片，请不要意外。这并不代表它“笨”，只说明它的设计目标就只能处理文本。