您现在的位置是:探索 >>正文
浪潮信息发布"源"Yuan
探索88698人已围观
简介北京2024年12月6日 /美通社/ -- 近日,浪潮信息发布"源"Yuan-EBYuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78. ...
北京2024年12月6日 /美通社/ -- 近日,源浪潮信息发布"源"Yuan-EB(Yuan-embedding-1.0,浪潮嵌入模型),信息在C-MTEB榜单中斩获检索任务第一名,发布以78.41的源平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、浪潮精准的信息知识向量化能力支撑,助力用户使用领先的发布RAG技术加速企业知识资产的价值释放。
Yuan-EB(版本号Yuan-embedding-1.0) 是源专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 "源2.0" 大模型的浪潮工作基础上,创新性地采用了"源2.0-M32"大模型进行数据重写与合成,信息并通过索引技术、发布样本排序等系列方法完成高质量微调数据集构建,源能够有效提升RAG系统的浪潮检索精度。
C-MTEB是信息目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。"源"Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。
“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一
"源"Yuan-EB助力RAG检索精度新高
嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。
"源"Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:
- 在数据方面,基于"源2.0"微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用"源2.0-M32"对C-MTEB 训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;
- 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用"源2.0-M32"生成的合成数据进一步微调,并使用MRL方法完成"源"Yuan-EB训练;
"源"Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。
元脑企智EPAI集成"源"Yuan-EB,加速知识库构建与性能提升
目前,"源"Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用"源"Yuan-EB,并结合EPAI自研的多阶段RAG技术,零代码、低成本地基于企业数据构建大模型知识库应用。
企业大模型开发平台"元脑企智"EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。
元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“将心比心网”。http://www.bpssyz.com/news/75f234097584.html
相关文章
房产税试点今年继续扩容
探索【建材网】消息人士5月19日透露,房产税试点扩容已提上日程。继上海、重庆试点房产税征收后,今年有望新增数个城市进行房产税试点。新增试点城市执行方案与标准将因地制宜,预计主要针对增量征收。2011年1月 ...
【探索】
阅读更多适合中产家庭的3所理工牛校!
探索当然有,这几所理工科院校就性价比更高而且低成本!学费和生活费在30-40万人民币左右,并且学校地理位置接近大城市也好找工作!现在和大家一起来看一下。佛罗里达大学佛罗里达大学University of ...
【探索】
阅读更多欧阳自远:嫦娥五号月球样品将开展月表撞击事件等研究
探索...
【探索】
阅读更多
热门文章
最新文章
友情链接
- 四级分数与托福分数对比
- 重庆、成都企业登记档案“掌上”一键通查上线
- 浙江第四届“网剑杯”电子数据取证比武大赛落下帷幕
- 对“四风”问题露头就打反复敲打 风清气正过春节
- 涉案近500万元!广西合浦一假冒“GUCCI”生产窝点被查
- 中国官方公布各地区2019年度能源消费总量和强度双控目标考核结果
- 私立学校和公立学校哪个更适合申请
- 美国合成生物学大学排名
- 科尔比与贝茨学院哪个更好
- 摩尔西斯堡中学大学发展方向如何
- 香港副学士到底属于哪个资历级别!
- ucsb经济学硕士专业
- 私立学校和公立学校哪个更适合申请
- 一般什么时候申请美国大学
- 托福听力加试哪几题
- 香港副学士到底属于哪个资历级别!
- 重庆、成都企业登记档案“掌上”一键通查上线
- 伯克利在美国的哪个州
- 美国合成生物学大学排名
- 俄亥俄州立大学对阵宾州州立大学
- 重庆、成都企业登记档案“掌上”一键通查上线
- 生产不合格防护服 “顺康医疗”被处罚
- 从迈阿密牛津到俄亥俄州立大学
- 一般什么时候申请美国大学
- 宾夕法尼亚大学建筑教材
- 哥大的统计学和商业分析哪个专业更好
- 美国大学计算机专业适合申请吗?
- 南水北调实现调水逾400亿立方米
- 麻省大学与俄亥俄州立大学
- 宁夏石嘴山:唱响打击侵权假冒工作主旋律