
日前,第 63 届国际计算语言学年会(ACL 2025)正式颁奖,共有 4 篇论文入选「最佳论文」,其中 DeepSeek 和北大合作、梁文锋(DeepSeek 创始人)署名的文章,以及北大杨耀东团队获得了其中两篇。
其中,由 DeepSeek、北大、华盛顿大学合作,梁文锋署名的为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,其提出的稀疏注意力 NSA 模型的算法,能够从一般任务到严苛的长下文任务,都能拥有出色卓越的表现:将长文本处理速度提高了最多 11 倍,而性能超过了全注意力模型。
而北京大学人工智能研究院的《Language Models Resist Alignment: Evidence From Data Compression》则主要探讨了为什么 LLM(大语言模型)的「安全对齐」效果很脆弱且容易被逆转。
值得一提的是,本次 ACL 2025 总投稿数量创下历史新高,达到了 8360 篇论文,而论文里的中国作者比例超过了 51%。