DeepSeek"开源周",连续掏出两大核心武器
创始人
2025-02-27 09:39:05
0

原创 张广凯 观察者网

► 文 观察者网 张广凯

今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。

昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。

MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。

简单理解,MoE架构是由多个专注于垂直技能的专家模型分工协作来实现最终输出结果,训练成本和推理成本更低。有消息称,GPT-4就使用了MoE架构,由8个220B模型组成。但MoE架构的缺点之一是会增加通信成本。

DeepEP通信库就是针对通信环节的优化,其特点包括:高效、优化的全员沟通;节点内和节点间均支持 NVLink 和 RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生 FP8 调度支持;灵活的 GPU 资源控制,实现计算-通信重叠。

MLA则是让模型预测更远位置的token,从而增强语义理解能力。DeepSeek的Flash MLA专为英伟达Hopper GPU打造了高效MLA解码内核,特别针对变长序列进行了优化。

来源|观察者网

相关内容

热门资讯

2025年中国供热行业数据发布... 2025年,中国供热行业在政策引导和技术创新的双重推动下,取得了显著进展。根据国家能源局和相关部门发...
供热行业市场动态与智慧供热系统... 一、供热行业市场现状与发展趋势 近年来,随着城市化进程加快、能源结构调整以及“...
避开集中供暖 三种自采暖方式你... 在寒冷的冬季,供暖是保持舒适生活的必要条件。然而,由于地域和时区的差异,并非所有地方都能享受到集中供...
2024年枣庄热力公司计划完成... 齐鲁网·闪电新闻6月28日讯 6月27日,枣庄市市中区人民政府新闻办公室举行“市中区供热管网改造及建...
供热行业正迎来智慧化变革的关键... 随着我国城市化进程加速和"双碳"目标的深入推进,供热行业作为能源消耗的重要领域,正面临前所未有的转型...
山东多地供暖最新消息通知202... 冬天马上就要来了,山东省好些地方的供暖准备工作都紧锣密鼓又井井有条地开展起来啦。为了能让 2024 ...
能源自控系统的市场规模与趋势洞... 在全球能源格局深刻变革、数字化技术蓬勃发展的当下,能源自控系统作为实现能源高效利用、优化能源管理以及...
热源迭代绿色转型!济南能源集团... 在“双碳”目标下,供暖燃煤锅炉清洁替代一直在全国范围内广泛开展。为严格落实省委、省政府有序推动低效小...
提前供暖,山东多地明确了→ 11月7日下午,青岛市城市管理局、青岛市住房和城乡建设局做客民生在线,围绕供热季相关问题与网民进行在...
DeepSeek 与 Open... 在人工智能蓬勃发展的当下,DeepSeek 与 OpenAI 作为行业内极具影响力的参与者,各自展现...
  • 安全认证
  • 安全企业
  • 技术团队
  • 研发专利
  • 维护服务
  • 安全设计
  • 健全渠道
  • 构建生态
  • 服务热线:15621693767

    地址:潍坊市高新区新城街道玉清社区玉清东街利昌办公楼一楼102-106室

    技术:15621690337

    E-mail:sdilan@sdilan.com.cn、sdailan@126.com

    Copyright © 2024 山东艾蓝智能科技有限公司 All Rights Reserved 版权所有 鲁ICP备2024080343号-1