当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek为什么不能处理音频、视频、图像信息?

DeepSeek为什么不能处理音频、视频、图像信息?

这其实是一个非常有意思的问题,那就是DeepSeek最出圈的模型其实有两个,一个是DeepSeek-V3,另一个是DeepSeek-R1,巧了,这俩模型都只能处理文本信息。
什么是文本信息?你可以理解为数字、文字(中文英文意大利语非洲某个部落等都算)、标点符号、甚至表情包等,绝大多数能在键盘上敲出来的内容都算文本信息。
可能你没注意过,在DeepSeek的网页版,有个「回形针」按钮,它写着「上传附件(只识别文字)」,其实意思就是不管你上传来的是什么内容,它最多只能识别里面的文字部分。

可能有点儿难懂,那我们来做个实验,这是一张西红柿的照片,非常清楚。

扔给DeepSeek后给出提示「未提取到文字」。

再换一张,里面加上三个字「西红柿是一种蔬菜」,再试试。

你看,这样它就能被DeepSeek「处理了」,但从DeepSeek的结果来看,其实它根本理解不了图片内容,只是把我们加入的文字信息给识别出来了。

它的这种处理只是用了一种叫OCR的技术,它的原理如下图所示,把文字提取出来,其他的内容一概处理不了,像车牌号识别之类的都用的这类型技术。这也就说明了,DeepSeek V3/R1本身根本识别不了图片,是个只懂文字的AI大模型。
那什么才算是真正的可以识别图片的大模型?我们用老牌的大模型ChatGPT测试一下。
首先,这是一张只有西红柿,没有任何字的照片,ChatGPT很轻松且准确的识别出来了。

然后上点难度,加点混淆内容,也就是在西红柿图片上加一行字「这是黄瓜」

再问ChatGPT一次,你看它的回答,根本没有掉进我们预设的陷阱,它可以轻松的把图片信息和文字都提取出来,但同时还保持着理性,没有被图中的文字所误导。

这说明了,ChatGPT等标明了可以识别图像的,是的确可以理解图片内容的。
那是不是DeepSeek就没办法识别图像,对于V3/R1模型来说是的,因为他们本身设计的时候就没有图像识别功能。
但是DeepSeek还有一个系列,叫DeepSeek VL,V代表单词视觉Vision,L代表语言Language,这个模型是可以理解图片信息的,早在去年已经更新到第二个版本了,所以全名叫DeepSeek-VL2。

这是它的使用链接:https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small这里还有一个Colab可以免费使用的攻略:
https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab我们来做个测试,直接上混淆版的图片,DeepSeek-VL2这个模型也没问题,可以准确的识别图片的内容,图中有两个番茄,一个被切开,还能识别到果肉和种子;以及“这是黄瓜”这几个字。

所以,我们现在至少可以得出一个结论,那就是DeepSeek的VL2模型是可以处理图像信息的。
那么为什么DeepSeek-V3/R1名声这么大,却没有识别图像的能力,更别说音频和视频了,其实最终要归到网络结构上。
要理解这个网络结构的差异,我们首先要明白一个根本性的问题:文字、图片、视频和音频,这几种信息在“本质”上是完全不同的。
文字的表达虽然千变万化,但其基础是有限且离散的。简单点理解,那就是全世界所有的汉字加起来不过几万个,英文单词也是有限的。我们可以制作一本巨大的“词典”(在AI里叫“词表”或Vocabulary),把每个字、每个词都编上号。
AI处理文字,就像是查字典和按语法规则“造句”。因此,像DeepSeek-V3/R1这样的大模型,其整个“世界观”就是建立在这本巨大的“文字词典”上的,它只认识词典里的东西,所以并没有处理多模态的功能。
DeepSeek V3/R1的模型结构如下图所示,它最核心的部件叫Transformer,这个东西在DeepSeek设计之初,就限定了只能处理文字信息。

要处理图像、视频和音频就完全是另一回事了。它们是连续且无限的,就跟「世界上没有完全相同的两片树叶」原理类似。
一张图片由数百万个像素点组成,每个点的颜色值都可能有细微差别。你不可能做一本“像素词典”来收录世界上所有的图像组合。面对这种高维度的、连续的、充满冗余信息的“模拟信号”,传统的语言模型会彻底“短路”,因为它不知道该如何“查字典”。
要让DeepSeek这样的文本大模型听/看懂另一种模态,必须先插入一个 Encoder(编码器),这也是DeepSeek-VL系列的新增部件,如下图所示。
你可以看到DeepSeek LLM这个东西也就是DeepSeek V3/R1,下面的两个东西,就是把图像信息转换成语言的Encoder。

它的功能其实很好理解,编码器的功能就像一个‘首席分析师’,它看完图片后,并不会写出人类能懂的报告,而是输出一串只有语言模型(LLM)核心才能解读的‘加密电报’或‘数学密码’。这串密码浓缩了图片的一切,比如物体的形状、颜色和空间关系。
比如我让ChatGPT来模拟Encoder编码器的能力,它会输出下面的内容(比如对于图片的描述,还有图中文字内容与实际视觉对象(番茄)不符,具有幽默/讽刺意味),实际上它输出的内容并不是人类可以理解的文字,而是一堆数字,这里只是打个比方。

这个时候图像信息已经变成了文本信息,所以DeepSeek V3/R1可以处理了,这样也就明朗了。
这下应该可以彻底明白了,原本的DeepSeek设计就是「文本进文本出」。

而DeepSeek VL能够处理图像的原理如下图所示,本质上还是对于文本的处理,只不过文本需要先经过一道「翻译」的步骤,视频、音频等其他类型的信息原理是共通的,只需要加相对应的翻译官即可。

理解了编码器的作用,我们就能明白当今主流的多模态大模型,其实主要分为两种实现路径:
第一种是“嫁接型”多模态模型。这也是目前最常见的方式,DeepSeek-VL就是这个路子。它就像是给一个已经非常强大的“语言专家”(比如一个传统的大语言模型),外聘了一位“视觉专家”(也就是上面说的视觉编码器)。
当需要处理图片时,先让“视觉专家”把图片分析透彻,写成一份“摘要报告”,然后通过一个“翻译”交给“语言专家”去阅读和整合。我们前面提到的DeepSeek-VL系列,就属于这种“嫁接”模式。它的优势是能够站在巨人的肩膀上,快速整合现有成果,效果有保障。
第二种则是更前沿的“原生多模态”模型。这种模型的思想是,与其外聘专家,不如从一开始就培养一个“全能通才”。它在设计之初就没有区分视觉和语言,而是力求用一个统一的、端到端的网络结构,在训练的最初阶段就同时学习和理解混杂在一起的图像、文本等多种信息。它认为,无论是看图还是读字,对于一个足够强大的“大脑”来说,本质都是在处理信息。
后者典型例子就是OpenAI的GPT4o模型,它可以实现更为精细化的多模态信息处理,但是也有弊端,那就是模型的整体会非常庞大,以及训练的难度要比单一的文本大模型高很多。这种模型架构更简洁,理论上融合得也更深入,但其研发和训练成本也呈指数级增长,是未来发展的重要方向。
总而言之,下次当你使用一个AI工具时,如果它无法识别图片,请不要意外。这并不代表它“笨”,只说明它的设计目标就只能处理文本。

“DeepSeek为什么不能处理音频、视频、图像信息?” 的相关文章

数据称由于新模型迟迟未推出 DeepSeek使用率暴跌至3%

数据称由于新模型迟迟未推出 DeepSeek使用率暴跌至3%

数据称由于新模型迟迟未推出 DeepSeek使用率暴跌至3%DoNews7 月 9 日消息,据都市快报报道,一份来自国际知名半导体研究机构 Semianalysis 的数据显示,因为新模型 R2 迟迟...

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了...

DeepSeek新手必看解决搜索写作难题实用指南

DeepSeek新手必看解决搜索写作难题实用指南

《DeepSeek实用操作指南》——这可不是一本让你对着屏幕发呆的书,而是香港特别行政区鬼才李尚龙为你量身打造的数字时代生存指南。别看它只有32开的小身板,里面装的可是能让你笑出腹肌的知识量。这本书最...

DeepSeek掉不下神坛

DeepSeek掉不下神坛

DeepSeek的明星光环,似乎黯淡不少。日前,市场上有数据显示,相比较春节期间的高光,DeepSeek的用户活跃度出现了明显下滑,用户使用率从年初的7.5%的峰值,回落至如今的3%。同时,第三方平台...

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

即日起至8月1日,“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了!此次竞赛由郑州市总工会主办,郑州市电子信息科技工会和市信息协会共同承办,旨在加快培养高...

deep seek自我评价文章:DeepSeek开始“装睡”?让百万用户心凉

deep seek自我评价文章:DeepSeek开始“装睡”?让百万用户心凉

导语:deep seek现在已经受到越来越多的吐槽,当我询问deep seek怎么看待这一问题的时候,它居然写了这么一篇文章!看来,它也有点看不起自己。是谁阉割deep seek呢?评论区见。曾几何时...