DeepSeek"开源周",连续掏出两大核心武器
创始人
2025-02-27 09:39:05
0

原创 张广凯 观察者网

► 文 观察者网 张广凯

今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。

昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。

MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。

简单理解,MoE架构是由多个专注于垂直技能的专家模型分工协作来实现最终输出结果,训练成本和推理成本更低。有消息称,GPT-4就使用了MoE架构,由8个220B模型组成。但MoE架构的缺点之一是会增加通信成本。

DeepEP通信库就是针对通信环节的优化,其特点包括:高效、优化的全员沟通;节点内和节点间均支持 NVLink 和 RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生 FP8 调度支持;灵活的 GPU 资源控制,实现计算-通信重叠。

MLA则是让模型预测更远位置的token,从而增强语义理解能力。DeepSeek的Flash MLA专为英伟达Hopper GPU打造了高效MLA解码内核,特别针对变长序列进行了优化。

来源|观察者网

相关内容

热门资讯

避开集中供暖 三种自采暖方式你... 在寒冷的冬季,供暖是保持舒适生活的必要条件。然而,由于地域和时区的差异,并非所有地方都能享受到集中供...
2024年枣庄热力公司计划完成... 齐鲁网·闪电新闻6月28日讯 6月27日,枣庄市市中区人民政府新闻办公室举行“市中区供热管网改造及建...
热源迭代绿色转型!济南能源集团... 在“双碳”目标下,供暖燃煤锅炉清洁替代一直在全国范围内广泛开展。为严格落实省委、省政府有序推动低效小...
提前供暖,山东多地明确了→ 11月7日下午,青岛市城市管理局、青岛市住房和城乡建设局做客民生在线,围绕供热季相关问题与网民进行在...
山东多地供暖最新消息通知202... 冬天马上就要来了,山东省好些地方的供暖准备工作都紧锣密鼓又井井有条地开展起来啦。为了能让 2024 ...
500万平方米!山东最大单一区... 8月15日,山东发展投资集团举行东营经济技术开发区地热清洁供暖项目开工仪式。该项目是全省最大的单一区...
细数山东供暖往事,从木柴煤炭到... 立冬一过,北方的供暖大幕缓缓拉开。 11月15日零时,山东济南正式进入采暖季,8000余...
济南供热公司提醒:装修改造暖气... 齐鲁晚报7月27日讯(记者 蒋龙龙 实习生 于文聪 王觅)夏季是市民家庭装修的高峰时期。济南热电公司...
幸福画乡说 | 今冬供暖季将至... 把温暖送给群众 将幸福注入生活 寒亭区全力以赴做好供暖各项准备工作 ...
智慧供热、“访民问暖”……聊城... 齐鲁网·闪电新闻7月25日讯 7月25日,聊城市人民政府新闻办公室召开“聊城市推动大规模设备更新和消...
  • 安全认证
  • 安全企业
  • 技术团队
  • 研发专利
  • 维护服务
  • 安全设计
  • 健全渠道
  • 构建生态
  • 服务热线:15621693767

    地址:潍坊市高新区新城街道玉清社区玉清东街利昌办公楼一楼102-106室

    技术:15621690337

    E-mail:sdilan@sdilan.com.cn、sdailan@126.com

    Copyright © 2024 山东艾蓝智能科技有限公司 All Rights Reserved 版权所有 鲁ICP备2024080343号-1