您现在的位置是:热点 >>正文
浪潮信息发布 "源2.0
热点13人已围观
简介北京2024年5月30日 /美通社/ -- 5月28日,浪潮信息发布"源2.0-M32"开源大模型。"源2.0-M32"在基于"源2.0"系 ...
北京2024年5月30日 /美通社/ -- 5月28日,浪潮浪潮信息发布"源2.0-M32"开源大模型。信息"源2.0-M32"在基于"源2.0"系列大模型已有工作基础上,发布创新性地提出和采用了"基于注意力机制的浪潮门控网络"技术,构建包含32个专家(Expert)的信息混合专家模型(MoE),并大幅提升了模型算力效率,发布模型运行时激活参数为37亿,浪潮在业界主流基准评测中性能全面对标700亿参数的信息LLaMA3开源大模型。
在算法层面,发布源2.0-M32提出并采用了一种新型的浪潮算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的信息专家调度策略,这种新的发布算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,浪潮选择两个或多个专家参与计算时关联性缺失的信息问题,使得专家之间协同处理数据的发布水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。
Figure1- 基于注意力机制的门控网络(Attention Router)
在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练"丰富性、全面性、高质量"的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。
在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。
基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。
Figure2 源2.0-M32业界主流评测任务表现
源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。
浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。
源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。
代码开源链接:https://github.com/IEIT-Yuan/Yuan2.0-M32
模型下载链接:
Huggingface:https://huggingface.co/IEITYuan/Yuan2-M32-hf
ModelScope:https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary
Tags:
上一篇:重磅推出——健康管理平台
相关文章
希尔顿逸林酒店亮相广西
热点南宁五象希尔顿逸林酒店盛大开业南宁2023年10月15日 /美通社/ -- 希尔顿集团(NYSE: HLT) 今日宣布,南宁五象希尔顿逸林酒店正式开业。作为广西首家希尔顿逸林酒店,酒店将品牌谦逊的待客 ...
【热点】
阅读更多环卫大爷被气哭:一天工资86元却被扣260元
热点5月4日,河南郑州,一名环卫大爷在地铁口打扫卫生的时候被气哭,因为附近的黑车司机随手乱扔烟头,地上被看见一个烟头他就要被罚7元钱。大爷一天工资只有86元,却被罚款260元。官方称没实施过这个规定,针对 ...
【热点】
阅读更多哈尔滨富力丽思卡尔顿酒店三周年 呈现冬日悠游体验
热点星月交辉 熠熠三载哈尔滨2024年11月27日 /美通社/ -- 年终岁尾,冬雪翩然而至,哈尔滨富力丽思卡尔顿酒店正式踏入三周年,诚邀宾客前往北境探寻冬日风情,开启雪境新程,纵享踏雪欢愉之时,留下更多 ...
【热点】
阅读更多
热门文章
最新文章
友情链接
- 林清轩颠覆式创新“夜猫子”油液精华,沪上海底捞全新发布
- 达科斯塔乘势而上 FE电动方程式上海站拉开战幕
- 伍尔特集团创下新的销售纪录
- 超越娱乐:刻画数娱打破传统营销定义,创造全新营销模式
- 恩凯赛药NK042细胞注射液获中国NMPA临床试验默示许可
- 沙特阿拉伯当选为ALECSO执行委员会主席至2026年
- 数智制造,激发新质生产力 软通动力受邀参加华为AI+制造行业峰会2024
- 麦当劳中国携手国际艺术家打造六一童趣庆典
- 深圳康莱德酒店迎来开业一周年,致力于打造梦想家的灵感之所
- 探营2025广州新春灯会,超7层楼高大凤冠惊艳全场!
- 索尼第一方工作室或将广泛使用Decima引擎开发游戏
- 卡西欧以全新"天空大海"概念为灵感庆祝制表50周年
- 用广泛的影响力促进人类健康,强生荣登2024年《财富》中国ESG影响力榜
- 深圳四季酒店携手红树林基金会展开系列环保公益活动
- 图达通助力千挂科技AutraOne交付,推动干线物流自动驾驶加速落地