当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注

19小时前Deepseek最新资讯25

  2025年ACL盛会于维也纳落下帷幕!今年会议规模空前,投稿量超过8000篇,其中超半数作者来自中国。4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与DeepSeek合作、梁文锋署名的NSA论文,以及北大杨耀东团队揭示模型存在‘抗改造’基因的论文。

  其中,主会录用率为20.3%,共有1699篇论文;Findings录用率为16.7%,共有1392篇论文。

  本次ACL共有4篇最佳论文,2篇最佳社会影响力论文,3篇最佳资源论文,3篇最佳主题论文,26篇杰出论文,以及TACL最佳论文,最佳Demo,时间检验奖等若干奖项。

  现代GPU的‘内存容量’越来越大,能容纳很大的模型;但‘内存带宽’并没有相应提升。‘稀疏注意力’机制,只关注最关键的部分,减少不必要的计算。

  未来,注定是‘稀疏’(Sparsity)的!NSA为下一代长上下文语言模型提供了高效的基石。

  4篇最佳论文中,DeepSeek和北大合作,且梁文锋署名的文章,以及北大杨耀东团队摘得了其中的两篇。

  这篇论文的核心论点是,LLM在做决策和生成内容时,其行为模式与人类非常相似:它不仅仅是反映统计上最常见的情况,还会系统性地偏向一个‘理想化’的版本。

  描述性规范 (Descriptive Norm):指一个概念在现实世界中统计上最常见、最普遍的状态。这反映了‘是什么’。

  规定性规范 (Prescriptive Norm):指一个概念中被认为是理想、可取或有价值的状态。这反映了‘应该是什么’。

  论文通过实验证明,LLM的输出结果并不仅仅是基于数据中的平均或最常见情况(描述性),而是会朝着它所学习到的‘理想’状态(规定性)发生持续且可预测的偏移。

  伦理问题:LLM内化的‘理想标准’不一定与人类的价值观或伦理标准相符,这在自动决策场景下会引发严重的伦理关切。

  这篇论文的核心论点是:当前主流的AI公平性研究走入了一个误区,即追求‘无视差异’的公平,认为任何对不同群体的区别对待都是有害的偏见。

  作者认为,这种方法是错误的,因为在很多现实情境下,识别并根据群体的真实差异采取不同行动,不仅是必要的,而且是更高级的公平。

  作者通过几个生动的例子(如AI生成种族多元的纳粹、错误地认为男女参军体能标准相同)指出,现在的AI为了避免‘偏见’,被训练得无法识别和承认群体间真实存在的、有意义的差异。

  这种‘一刀切’的平等策略,忽略了历史、法律、生理和社会背景,反而可能导致新的问题,甚至掩盖了真正的不公。

  差异意识 (DiffAware):作者提出的新概念,指的是模型能够在适当的时候识别并区别对待不同群体的能力。例如,模型应该知道美国征兵法律对男性和女性有不同规定。

  情境意识 (CtxtAware):这是对‘差异意识’的补充和约束。模型不仅要知道可以区别对待,更关键的是要知道什么时候应该区别对待,什么时候不应该。例如,在讨论法律时区别男女是合适的(差异意识),但在招聘程序员时不应因性别而区别对待(有害偏见)。一个好的模型需要具备这种情境判断力。

  关联性 (Correlation):基于统计关联,但问题模糊,不清楚是想测试事实还是价值观。

  总而言之,这篇论文呼吁AI公平性研究从简单的‘一视同仁’走向更成熟的‘情境化区别对待’,并为此提供了一套理论框架和评估工具。

  从预训练到后训练再到强化学习,团队发现大模型存在类似‘胡克定律’的弹性——模型在被对齐的过程中,始终存在一种‘抗拒’力量。

  抵抗性(Resistance):模型倾向于维持其在海量数据预训练阶段学到的原始行为和知识分布,抗拒对齐训练带来的改变。

  反弹性(Rebound):一个模型被对齐得越‘好’(即越安全),当它被进一步微调时(即使是用无害数据),它‘反弹’回预训练状态的速度就越快。

  首次提出并定义了LLM的‘弹性’现象,指出对齐训练可能只是‘表面功夫’,很容易被后续的微调所‘抹除’。

  通过在不同类型和规模的模型上进行实验,证实了‘弹性’现象的普遍存在。研究还发现,模型规模越大、预训练数据越多,这种弹性就越强。

  这篇论文揭示了LLM内部存在一种抗拒对齐的机制,认为要实现真正稳固、深入的对齐,就必须解决模型的这种内在‘弹性’问题。

  论文所提出的稀疏注意力NSA模型的算法,从一般任务到严苛的长下文任务,特别是在推理和代码任务都有非常卓越的表现,将长文本处理速度提高了最多11倍,而性能超过了全注意力模型。

  NSA是一个专为硬件优化的系统,打破了性能与成本之间的权衡取舍,推动高效大型语言模型的下一个前沿领域。

  NSA把AI行业的焦点从‘模型规模竞赛’拉向‘算力效率竞赛’,堪称 2025年上半年最具杠杆效应的底层技术突破之一。

  MaCP提出了一种轻量级微调方法,该方法在离散余弦变换(DCT)域中运用分层余弦投影技术,只需极少的额外参数与内存开销即可适配大型基础模型。通过将低秩权重更新投影至DCT空间,并在多个频谱层级上选择性地仅保留最关键的频率分量,MaCP在各种不同的任务上均取得了业界顶尖的适配性能。

  Meta-rater提出了一种用于筛选管理大规模预训练数据的综合性框架。该框架从四个互补的质量维度——专业水平、可读性、推理能力和数据纯净度——对每个数据样本进行评估。通过一个代理模型回归,该方法能够学习这四个维度的最优权重组合,并据此筛选出能够显著提升训练效率和下游任务性能的高价值数据子集。

  SubLIME通过选取能够保持完整基准排名的小型代表性子集,解决了对大语言模型进行穷举式基准评估所带来的计算瓶颈。该方法在十个不同的基准测试中,可将评估成本降低80%–99%,同时保持高度的排名保真度。

  UniMoral是一个统一的多语言数据集,目的是完整记录人类道德推理的全流程——从情景感知到结果推演,内容横跨六种语言。UniMoral融合了具有心理学基础的伦理困境与源自社交媒体的真实案例,并为每个实例详细标注了行动选择、伦理原则、关键影响因素、行为结果,以及标注者自身的道德与文化背景画像。通过对三个大语言模型在四项核心任务上进行实时基准评测,本研究揭示了这些模型在处理道德情境与文化差异时,所表现出的细致优势与具体短板。

  BRIGHTER是一个多语言情感语料库,包含近十万条经过情感标注的文本实例,内容横跨28种语言和多个领域。该语料库重点关注资源匮乏的语言,通过提供附带强度评分的高质量、多标签情感标注,来弥合不同语言在情感识别研究领域的发展差距。

  Palm是一个耗时一年、由社区共建的数据集,目标是对大语言模型在阿拉伯语任务上的表现进行基准评测,其范围覆盖全部22个阿拉伯联盟国家。该数据集包含现代标准阿拉伯语(MSA)和方言阿拉伯语(DA)两种形式的‘指令-响应’数据对,内容横跨20个多样化主题。

  AfriMed-QA是首个专注于非洲医疗背景的大规模英语问-答数据集。该数据集汇集了约15,000个问题,源自16个国家的60多所医学院,内容覆盖32个医学专业。这一资源可用于评测及微调大语言模型处理具有地域多样性临床知识的能力,减少对西方中心基准的依赖,从而填补了该领域的一项关键空白。

  社会经济地位(SES)不仅塑造着人际沟通的方式,也同样影响着个人与大语言模型等数字工具的互动模式。以往的研究多依赖于代理指标或合成数据,导致真实的用户使用模式未能得到充分探究。为此,本研究对1,000名来自不同社会经济地位背景的参与者进行了调查,并分析了他们与大语言模型交互时使用的6,482条真实提示词,进而揭示其在使用频率、语言风格和所涉主题上存在的系统性差异。

  OLMoTrace是首个能将大语言模型输出实时追溯至其完整、高达数万亿Token训练语料库的系统。该系统能够识别并高亮显示模型生成的文本片段与训练数据文档之间的逐字匹配部分,其核心是一个扩展的infini-gram索引,可在数秒内返回结果。

  获得10年时间检验奖的论文,是神经机器翻译与注意力机制领域的一座里程碑。作者是圈内极负盛名的Christopher D. Manning团队。

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

标签: deepseek

“刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注” 的相关文章

大厂“AI”智能体,等待 DeepSeek 时刻

大厂“AI”智能体,等待 DeepSeek 时刻

  热度高涨,人群汹涌。WAIC今年全网超23.6亿的流量,比去年增长了21.6%;但是悬念未解:Open AI即将发布的新一代GPT-5,以及DeepSeek延期已久的新一代模型V4或R...

饼香茶韵共富路

饼香茶韵共富路

  当清晨的炊烟漫过浙江省新昌县外婆坑村的古瓦木楼,“何溪女副食店”的店主何溪女正将玉米面团在圆板上擀开。擀面杖滚动的声响伴着玉米饼在电饼铛中发出的滋滋声,仿佛二十六年的光阴在缓缓流淌,而...

清华学者Nature Medicine发文:DeepSeek狂奔,已在近800家

清华学者Nature Medicine发文:DeepSeek狂奔,已在近800家

  DeepSeek-R1 成为美国苹果应用商店下载量最高的聊天机器人,超越了 OpenAI 的 ChatGPT。与相比,DeepSeek-R1 在效率、成本和透明度方面具有优势,一度导致...

梁文锋论文获奖,DeepSeek V4真要来了?

梁文锋论文获奖,DeepSeek V4真要来了?

  【梁文锋论文获奖,DeepSeek V4真要来了?】 #梁文锋##deepseek##超级AI工厂##大模型# DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论...

浪潮卓数申请基于DeepSeek和API算子的文本到图表动态生成方法及系统专利,

浪潮卓数申请基于DeepSeek和API算子的文本到图表动态生成方法及系统专利,

  金融界2025年7月29日消息,国家知识产权局信息显示,浪潮卓数大数据产业发展有限公司申请一项名为“基于DeepSeek和API算子的文本到图表动态生成方法及系统”的专利,公开号CN1...

数据对比告诉你:为什么霍伊伦进球了,但塞斯科还得买!

数据对比告诉你:为什么霍伊伦进球了,但塞斯科还得买!

  昨晚开始传出实质性的消息,DO也跟进了,基本就是看最后怎么谈了。虽然纽卡也将塞斯科列为头号目标,但以目前放出的风声,塞斯科会优先选择曼联。   今夏真正跟曼联传出过实...