当前位置：首页 > Deepseek最新资讯 > 正文内容

刚刚，DeepSeek重要突破！大模型上下文紧箍咒打破

12小时前Deepseek最新资讯11

　　当把等量的文本token转化为视觉token（图像）后，DeepSeek-OCR能用更少的token数表达相近的文本内容，

　　在生产环境中，DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据，为大规模文档理解和多模态模型训练提供支持。

　　目前，这一模型已在Hugging Face上开源，而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称，他们此番开源的模型是对一种潜在解决方案的初步探索，即利用视觉模态作为文本信息的高效压缩媒介。

　　过去几年，AI模型的上下文能力不断被拉长——从4K到128K，再到上百万token，但代价是成倍增加的算力与显存消耗。

　　但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为：“一张包含文档文本（document text）的图像，可以用比等效数字文本（digital text）少得多的token，来表示丰富信息。这表明，通过视觉token进行光学压缩可以实现更高的压缩比。”

　　目前，业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究，DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题：对于包含1000个单词的文档，解码至少需要多少视觉token？这一问题对于研究“一图胜千言”的原则具有重要意义。

　　围绕这一问题，DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”，把原本数千个文字token压缩成几百个视觉token，再由语言模型解码回原文。

　　DeepSeek-OCR的架构分为两部分。一是DeepEncoder，一个专为高压缩、高分辨率文档处理设计的视觉编码器；二是DeepSeek3B-MoE，一个轻量级混合专家语言解码器。

　　DeepEncoder采用SAM + CLIP的双结构设计，通过局部窗口注意力结合全局注意力实现高保真视觉理解，并用一个双层的16×卷积压缩模块显著减少vision token数量。

　　举个例子，当输入1024×1024的文档图片时，传统视觉模型会生成4096个token，DeepEncoder能将其压缩至仅256个token，让激活内存的数量更可控。

　　此外，它支持多种“分辨率模式”。从轻量的Tiny（64 token）到高保真的Gundam（795 token），模型可根据任务复杂度自动选择压缩等级。

　　论文展示了不同分辨率的压缩效果。对肉眼而言，Tiny模式下图片中的文字略显模糊，但基本能看清；而在高保真的Gundam模式下，图中文字的阅读体验基本和原文件的阅读体验没有差别。

　　在实际使用中，一页普通论文或幻灯片仅需100个视觉token即可精准识别；而密集文本的报纸或科学论文，则可通过Gundam模式实现高精度还原。

　　在解码端，DeepSeek采用自研DeepSeek3B-MoE架构，推理时仅激活6个专家模块，总激活参数量约5.7亿。

　　这种“按需激活”的机制让模型既具备强表达能力，又能保持低延迟和高能效，极其适合文档OCR、图文生成等场景。

　　得益于这一体系，DeepSeek-OCR不仅能识字、断句，还能看懂图表、解读化学式、识别几何图形，处理常见的图文交错文档。

　　此外，所谓的“Gundam-master模式（超高分辨率）”是在预训练好的DeepSeek-OCR模型基础上，继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同，DeepSeek-OCR团队省略了详细描述。

　　DeepEncoder的训练遵循Vary的做法，使用一个轻量级语言模型，并基于下一token预测框架进行训练。在此阶段，模型使用了前述的OCR 1.0与OCR 2.0数据，以及从LAION 数据集中采样的1亿条通用图像数据。

　　当DeepEncoder训练完成后，DeepSeek-OCR团队使用多模态数据和纯文本数据，采用流水线并行策略来训练完整的模型。

　　为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力，研究团队选取了Fox基准进行实验。实验结果显示，在10×压缩率下，DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。

　　当压缩率超过10×时，性能有所下降，主要原因包括文档版式复杂度的提升，以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决，而后者则可能成为未来“遗忘机制”的研究特征。

　　即便在近20×压缩时，模型仍能保持约60%的精度。这些结果充分说明，光学上下文压缩是一条前景广阔的研究方向，且无需额外计算开销，因为多模态系统本身已具备视觉编码器结构。

　　进一步分析显示，不同类型文档对token数量的需求存在差异：幻灯片类文档仅需约64个视觉token即可获得良好效果；书籍与报告在100个视觉token下即可实现稳定性能；报纸类文档由于文本量庞大，需采用Gundam或Gundam-master模式才能实现可接受的效果。

　　DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力，可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析（Deep Parsing）”。模型可在图像中识别不同类型的内容，包括图表、几何图形、化学结构式及自然图像等。

　　在金融研究报告中，DeepSeek-OCR能自动提取文档中图表的结构化信息，这一功能对金融与科学领域尤为重要。

　　对于化学文献，模型不仅可识别化学结构式，还能将其转化为SMILES格式，展现出在STEM（科学、技术、工程与数学）领域的潜在应用价值。

　　此外，DeepSeek-OCR还能解析平面几何图形的结构，尽管当前任务仍具有较高难度deepseek，但模型已显示出对几何要素与空间关系的初步理解能力。

　　互联网上的PDF数据涵盖多种语言，包括中文、英文以及大量多语种内容，这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力，支持带版面与非版面两种输出格式。

　　在多语言测试中，DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行，为多语种文档解析与跨语言知识提取奠定基础。

　　除专注于文档解析外，DeepSeek-OCR还保留了一定的通用视觉理解能力，包括图像描述、物体检测、目标定位（grounding）等任务。在提供相应提示词后，模型能够详细描述图像内容、定位特定对象，甚至在包含文本的图像中执行OCR识别任务。

　　此外，由于训练中融入了大量纯文本数据，DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是，DeepSeek-OCR尚未经过监督微调（SFT）阶段，因此并非对话模型，部分功能需通过特定提示词激活。

　　“上下文光学压缩”验证了视觉模态在文本压缩中的有效性，为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式，并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。

　　从行业视角看，DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量，模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

　　DeepSeek团队在论文最后写道：“光学上下文压缩仍有广阔的研究空间，它代表了一个新的方向。”这项从OCR任务出发的研究，或许已经超越了文字识别本身。原文出处：刚刚，DeepSeek重要突破！大模型上下文紧箍咒打破，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek新模型被硅谷疯夸！用二维视觉压缩一维文字，单GPU能跑

下一篇：DeepSeek新模型很疯狂：整个AI圈都研究视觉路线，Karpathy不装了

“刚刚，DeepSeek重要突破！大模型上下文紧箍咒打破” 的相关文章

刚刚，DeepSeek重要突破！大模型上下文紧箍咒打破

“刚刚，DeepSeek重要突破！大模型上下文紧箍咒打破” 的相关文章

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA？

DeepSeek 声明：防范冒用“深度求索”名义实施诈骗

DeepSeek发布V3.1版本，专为国产芯片优化，支持双模式推理架构

为什么邓肯伤病后，依然高水平发挥，而09年加内特伤病后，33岁直接掉出一线内线行

DeepSeek据悉计划年底前发布拥有更先进代理功能的人工智能模型

开源生态迈向“价值共创”，魔乐社区迎来第二批理事会成员

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.