新闻中心-海天瑞声

海天瑞声携手多家大模型机构共建高质量中文大模型训练数据集，助力通用人工智能产业发展

发布时间：2023/07/04

返回列表

7月2日，“2023全球数字经济大会人工智能高峰论坛”在京举办。海天瑞声（DATAOCEAN AI）携手多家大模型机构及企业共建“高质量中文大模型训练数据集”；大模型多语种语音数据集、大模型中文千万轮对话数据集入选“北京市人工智能大模型高质量数据集”；以及一体化人工智能基础数据服务平台助力行业大模型应用落地案例入选“北京市人工智能行业赋能典型案例”。

由北京市人民政府联合工业和信息化部、国家网信办、商务部、中国科协共同主办的2023全球数字经济大会，已进入开幕倒计时。7月2日，作为大会同期举办的六大高峰论坛之一，人工智能高峰论坛率先亮相。此次人工智能高峰论坛作为“2023全球数字经济大会”同期举办的六大高峰论坛之一，超高的热度吸引了近千名观众现场参与，也得到了政府及行业相关部门的高度重视。

此次论坛以“智能涌现，重塑未来”为主题，10余位人工智能领域顶级专家学者和企业、机构代表围绕当下最具热度的大模型发展话题分享了深刻洞见和思考。全国首个政务服务需求应用场景、北京市首批人工智能大模型高质量数据集、近百个场景案例发布，十个合作项目集中签约，展现出在推动通用人工智能产业发展和大模型创新应用成果方面的“北京力量”。

海天瑞声高质量中文大模型训练数据集共建项目

为展现北京通用人工智能产业发展和大模型创新应用成果，打造大模型应用标杆项目，促进资源对接与商业合作，深度赋能千行百业数智化转型，加快推动通用人工智能产业的高质量发展，本次论坛中进行了“北京市通用人工智能大模型应用场景需求榜单”、“北京市通用人工智能大模型行业应用典型场景案例”、“北京市人工智能行业赋能典型案例”等一系列重磅发布和签约活动。

在“北京市通用人工智能产业创新伙伴计划合作项目”签约仪式中，共发布了包括海天瑞声高质量中文大模型训练数据集共建项目在内等10个项目，合作内容涵盖模型企业赋能传统业务、模型伙伴与算力伙伴合作、模型训练数据合作与开发、模型伙伴合作构建大模型生态要素等领域。海天瑞声携手中科院自动化所、中国信通院泰尔实验室、智谱AI、澜舟科技、循环智能，共同宣布打造高质量中文大模型训练数据集共建项目，通过共建高质量训练数据，赋能大模型开发。海天瑞声副总经理李科出席了签约仪式。

首批大模型高质量数据集发布，总规模超500T

人工智能大模型的突破源于高质量数据的不断发展，提升高质量数据要素供给能力是推动通用人工智能大模型领域创新的关键。但目前，针对大模型训练的高质量中文语料占比较少，不利于中文语境表达及产业应用。

能够提供可开放用于大模型训练及调优的高质量数据资源，也是针对“北京市通用人工智能产业创新伙伴计划”数据伙伴重要的评估要素。

在本次论坛上，发布了首批“北京市人工智能大模型高质量数据集”，共有10家单位的18个高质量训练数据集入选，包括海天瑞声大模型多语种语音数据集、大模型中文千万轮对话数据集，以及人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等，涵盖经济、政治、文化、社会、生态等不同领域，总规模超过500T，将为通用大模型和行业大模型训练提供有力保障。

海天瑞声入选北京市人工智能行业赋能典型案例

本次论坛上共发布了70个“北京市人工智能行业赋能典型案例（2023）”，包括海天瑞声一体化人工智能基础数据服务平台助力行业大模型应用落地，快手千亿参数多场景统一大模型K7在短视频领域的应用，科大讯飞在智能客服领域的应用/实践，百度智能云基于人工智能大模型技术围绕北京市海淀区城市治理创新场景应用等，涵盖智慧城市、智慧教育、智慧金融、智慧医疗、智能制造、智能网联汽车等领域，充分展示了人工智能赋能千行百业的无限潜力。

人工智能只有与各行各业相结合才能彰显其价值。本次典型案例的发布对于行业有很强的示范效应，将为产业发展提供重要的参考意义，有助于人工智能向金融、政务、医疗、科研、自动驾驶、城市治理等领域快速渗透，赋能产业，改善生活，加速人工智能时代到来，让人工智能无处不在。

智能涌现，重塑未来。面对通用人工智能发展的历史性机遇，海天瑞声将持续探索创新，聚焦AI数据领域以高质量数据推动大模型应用加速赋能千行百业。

上一篇：会议预告｜海天瑞声与您相约 WAIC 2023，加入海洋探索者计划下一篇：海天瑞声精彩亮相2023世界人工智能大会，持续布局大模型及自动驾驶领域