当前位置：首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

6小时前Deepseek最新资讯11

　　是的，与DeepSeek-OCR一样，智谱这篇论文的目标同样也是通过视觉的方式，破解当下LLM上下文冗长的难题。

　　毕竟，不论是长文档分析、代码审查，还是多轮对话，模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务，就得有足够稳定的「工作记忆」。

　　原因在于，更多的Token，就意味着模型需要记住更多的激活值、缓存、注意力权重，这些东西在训练和推理阶段都是靠真金白银堆出来的。

　　在Transformer结构里，模型并不知道输入的先后顺序，因此要给每个Token加上“位置编码”，告诉模型这是谁先谁后。

　　比如，把0～32K的位置区间“插值”到0～100K，这样，模型就能在工作时接受更长的输入，而不必重新训练。

　　而且，模型虽然能继续读下去，但由于它在训练中从未见过如此长的上下文，现在逼着人家读肯定表现不会好。

　　既然上下文变长了，那就让模型「读」快一点，比如用稀疏注意力、线性注意力等技巧，提高每个Token的处理效率。

　　但再怎么快，账还是那本账，Token的总量没有减少，如果上下文都到了几十万，多高的效率也顶不住。

　　但大家也知道，RAG的输出结果肯定不如模型基于训练数据的回答，而且还会因多出来的检索步骤拖慢整体响应。

　　比如，如果一句话能分成1000个Token，模型就得老老实实算1000个向量，还要在它们之间做注意力计算。

　　相比之下，Glyph不会逐字阅读，而是先把整段文字排版成图像式的视觉Token，再把这张「截图」交给VLM去处理。

　　之所以要这么做，是因为图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

　　借助这种方式，即便是一个上下文固定的VLM，无需借助稀疏注意力、RAG等工具，也能轻松吃下足以「撑死」LLM的超长文本。

　　举个例子：小说《简·爱》大约有240K的文本Token，对一台上下文窗口只有128K的传统LLM来说，只能塞进去一半。

　　这样一来，同样是128K上下文的VLM就能轻松看完整部《简·爱》，对故事脉络心中有数，也能从更大的全局视角来回答问题。

　　具体而言，研究团队先尽可能多地将海量长文本渲染成不同风格的图像，把VLM扔在各式各样排版、字体、布局中“读图识文”，以便训练出更强的泛化能力。

　　为此，研究团队引入由LLM驱动的遗传搜索算法，让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

　　在找到最优的渲染方案后，研究团队又动手做了两件事：有监督微调和强化学习，旨让模型在“看图读文”这件事上更聪明、更稳。

　　此外，他们还在SFT和RL阶段都加上了辅助OCR对齐任务，教模型学会从图像里准确还原文字细节，让视觉和文本两种能力真正融为一体。

　　实验结果显示，Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率，同时依然保持与主流模型（如Qwen3-8B）相当的准确度。

　　这种压缩不仅减轻了算力负担，还带来了约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速。

　　更令人惊喜的是，在极端压缩的情况下，一个上下文窗口仅128K的VLM，依然能够应对相当于百万Token级的文本任务，并丝毫不落下风。

　　此外，虽然Glyph的训练数据主要来自渲染后的文本图像，但它在多模态任务上同样表现出色，证明了其强大的泛化潜力。

　　核心思路是把长文本“画”成图，再让VLM去看图读文，做到一目十行，从而能实现高效的上下文扩展。

　　论文的一作是Jiale Cheng，他是清华大学的博士生，主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek。

　　黄教授本科与博士均毕业于清华大学，目前是清华大学计算机科学与技术系长聘教授，同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

　　用图像而非文本作为输入，乍看之下似乎反直觉，但细想便会发现，这反而更贴近人脑的信息处理方式。

　　即便是阅读，我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形，在经过一层层视觉处理后，这些像素才被翻译成“文字”的概念。

　　相比之下，语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低，但本质上依旧是视觉的降维产物。

　　有趣的是，当AI在各项指标上不断逼近人类、引发普遍焦虑的同时，每当技术发展陷入瓶颈，我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处：智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek预测：布伦特福德vs利物浦！红军客场碾压？蒂亚戈5球vs加克波3

下一篇：西方警觉，“非洲不用我们的AI，都在用DeepSeek等中国模型”

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

DeepSeek -V3.1让国产算力迎新机遇

　　DeepSeek方面称，本次升级包含以下主要变化：混合推理架构让一个模型同时支持思考模式与非思考模式；相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更...

Gemini总榜排名超过DeepSeek AI产品月榜

　　AI产品榜旨在为用户提供一个了解和选择AI产品的便捷途径。我们希望能更客观全面地展现这些AI产品在市场上的表现和用户的接受程度。通过这个榜单，开发者可以了解自己产品及竞品的市场表现，进...

91岁作家王蒙玩转DeepSeek

　　【#91岁作家王蒙玩转DeepSeek#】近日，@人民日报记者采访了著名作家、“人民艺术家”王蒙。从19岁创作《青春之歌》，到改革开放后尝试意识流写作，从最早使用电脑写作到如今玩转D...

DeepSeek崩了引热议，官方深夜回应：网页API已恢复

　　8月11日，DeepSeek服务突遭全面宕机，API接口、网页平台以及App均无法访问或响应。许多网友也通过微博话题”DeepSeek崩了“反馈服务异常。根据DeepSeek在官网发布...

斯基拉：切尔西签下哈维-西蒙斯，双方签约7+1年

　　北京时间7月31日，记者斯基拉报道，切尔西签下荷兰中场哈维-西蒙斯。斯基拉表示这是独家消息：交易已经达成，莱比锡中场哈维-西蒙斯加盟切尔西，双方签约至2032年，附带一年续约选项。哈维...

英伟达，再次押注“美版DeepSeek”

　　据外媒披露，AI初创公司Reflection AI近期已融资20亿美元，英伟达领投8亿美元，公司估值达到80亿美元。　　值得注意的是，本轮融资距离该公司3月份1.3...