当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源新模型,用视觉方式压缩一切

15小时前Deepseek最新资讯21

  在GitHub()上可以看到其最新模型名为DeepSeek-OCR,还是一款OCR(光学字符识别)模型,该模型的参数量为3B。

  DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射(将文本内容压缩到视觉像素中)来高效压缩长文本上下文。

  该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。

  实验数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 <10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。

  简而言之,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩可以实现高得多的压缩率。

  基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。

  鉴于此,DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

  如图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。

  DeepSeek-OCR 的创新架构不仅实现了高效的视觉-文本压缩,更在实际应用中展现出强大的性能潜力。

  在编码器层面,DeepSeek创造性地将SAM-base的局部感知能力与CLIP-large的全局理解优势相结合。就像一位经验丰富的古籍修复师,它既能用显微镜精准识别每个字符的细节(窗口注意力),又能用广角镜把握整篇文档的版式结构(全局注意力)deepseek。特别值得注意的是其创新的16倍下采样机制——这相当于将一本300页的书籍压缩到20页的体量,却仍能保留97%的关键信息。

  而MoE解码器采用的混合专家机制犹如一个专业翻译团队:面对不同语种、不同版式的文档时,系统会自动激活最擅长的6位专家协同工作。这种动态资源调配使得3B参数的大模型在实际运行时仅需570M参数的计算开销,在A100显卡上就能实现每天20万页的处理效率——相当于100名专业录入员的工作量。

  这也意味着DeepSeek-OCR存在广泛应用潜力,在金融领域,它可以将厚厚的财报瞬间转为结构化数据;在医疗行业,能快速数字化历史病历档案;对出版机构而言,古籍数字化效率将提升数十倍。更值得关注的是,该模型展现出的视觉记忆特性,为突破大语言模型的上下文长度限制提供了全新思路。

  /最新!公安机关对“野人小孩”父母展开调查,家人称将让孩子落户北京,同意不让孩子赤裸爬行,律师提醒

  /财经早报:国内芯片领域现200亿大手笔投资 白银价格高涨买银条要排队丨2025年10月20日

  /十大机构看后市:短期波折不影响A股中长期走势,牛市还有纵深,四季度还有科技行情,超调提供较好介入时机原文出处:DeepSeek开源新模型,用视觉方式压缩一切,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源新模型,用视觉方式压缩一切” 的相关文章

华为联袂浙大发布DeepSeek-R1大模型 首秀安全新标杆

华为联袂浙大发布DeepSeek-R1大模型 首秀安全新标杆

  在年度科技盛会华为全联接大会上,国内首个基于昇腾千卡算力平台的人工智能成果揭开面纱。由浙江大学研究团队与华为技术团队联合攻坚的DeepSeek-R1-Safe-671B基础大模型,展示...

科比对队友要求很严格,为什么队友却都说他好话。詹姆斯一派老好人,队友对他的非议却

科比对队友要求很严格,为什么队友却都说他好话。詹姆斯一派老好人,队友对他的非议却

  詹姆斯最好的兄弟韦德、小迷弟帕金斯、小弟查尔莫斯,对詹姆斯的评价却褒贬不一,有时甚至动不动阴阳两句。难道真的就是球迷说的想吃两口詹姆斯流量吗?   詹姆斯最好的兄弟韦...

英伟达领投8亿美元,这家AI初创公司要做美国“DeepSeek”

英伟达领投8亿美元,这家AI初创公司要做美国“DeepSeek”

  。除了英伟达之外,本轮融资的投资者还包括光速创投、红杉资本、DST、前谷歌CEO施密特(Eric Schmidt)以及特朗普长子担任合伙人的1789 Capital等deepseek。...

国内AI原生应用TOP10 榜单揭晓 豆包、DeepSeek、腾讯元宝位列前三

国内AI原生应用TOP10 榜单揭晓 豆包、DeepSeek、腾讯元宝位列前三

  快科技9月16日消息,今日,国内第三方数据机构QuestMobile发布最新AI应用行业报告,豆包、DeepSeek、元宝、Kimi、文小言、AQ等入围中国AI原生应用Top10。...

国元证券-通信行业周报:Deepseek V3.1发布,卫星发射持续推进-250

国元证券-通信行业周报:Deepseek V3.1发布,卫星发射持续推进-250

  周行情:本周(2025.8.18-2025.8.24)上证综指上涨3.49%,深证成指上涨4.57%,创业板指上涨5.85%。本周申万通信上涨10.84%。考虑通信行业的高景气度延续,...

智联交通 AI创未来|行车卫士三大AI升级引领车队运输智能化变革

智联交通 AI创未来|行车卫士三大AI升级引领车队运输智能化变革

  在数字化转型浪潮下,中移物联网有限公司行车卫士持续创新,深度融合AI技术,推出三大重磅升级——智能填单助手、AI多模态告警过滤系统及智能钥匙柜,为政企车队提供更安全、高效、智能的运输管...