首页 家电维修 实时讯息 生活常识 百科知识 范文大全 经典语录

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

0次浏览     发布时间:2025-02-19 18:40:00    

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。

这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能力提供新的方向,实现将算法创新与硬件对齐的优化相结合,进行高效的长上下文建模。

“此次DeepSeek发布的论文,可以称为基石更新。”业内人士向澎湃新闻记者评论,此前的DeepSeek-R1的瓶颈在于输入上下文能力方面相对不足,此次更新正是解决了原先大模型文字处理的问题。

2月18日,就在DeepSeek论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为“MoBA:面向长上下文大语言模型的块注意力混合方法”)》,提出了与NSA类似的稀疏注意力框架MoBA,并设计了一套可以自由切换全注意力和稀疏注意力机制的方式,为已有的全注意力模型更多的适配空间。(澎湃新闻记者 范佳来 胡含嫣)

相关文章:

黄旭华女儿:鲜花会败,心意我们替父亲领着02-23

地区生产总值迈上3400亿!成都高新区今年将从这六个领域发力→02-22

一交通执法人员趴引擎盖被顶行数十米,官方回应:涉事车系非法营运02-22

深一度|中国足球:失望很大,希望很长02-22

如何看待人机关系?沈向洋:技术扩展人类能力,而非取代人类02-22

这场座谈会上黄旭华女儿哽咽:鲜花会败,心意我们替父亲领着02-22

阶跃星辰宣布开源图生视频模型,多模态领域的DeepSeek时刻何时来?02-22

沈向洋:开源这件事会越做越好02-22