高质量语料数据集如何塑造大模型未来发展

AI头条6天前发布 WriteRanger
7.2K 0

随着算力资源的逐渐普及,高质量语料数据集正在成为决定大模型性能的关键因素。2025年2月21日至23日,上海市将举办全球开发者先锋大会(Global Developer Conference,简称GDC)。届时,包括Hugging Face、微软开发者社区、CSDN、阿里魔搭社区、Linux基金会、阿帕奇基金会及华为社区在内的100家国内外开发者社区将共同探讨大模型、算力、语料、工具及软件平台等核心技术,并吸引来自硬件开发、云计算、大数据、物联网、AI、机器人、区块链和元宇宙等多个领域的开发者参与。

库帕思科技:专注高质量语料数据服务

作为参会企业之一,上海库帕思科技有限公司专注于为基模、垂类模型及中小创新创业者提供低成本、高质量的语料数据服务。库帕思CEO黄海清指出,DeepSeek的出现不仅让AI行业感到兴奋,同时也带来了思考——为何现有的大模型投入了大量资金却未能取得同样出色的效果。黄海清认为,除了原始算法的创新外,高质量语料数据集的应用也是DeepSeek成功的重要原因。

高质量语料数据的重要性

黄海清强调,高质量的语料数据集不仅决定了大模型的能力上限,还能显著降低训练成本。库帕思已经启动了多个行业语料库建设项目,涵盖具身智能、金融、制造、教育、医疗、文娱及城市治理等领域。此外,公司正在加速推进从真实世界到模拟仿真再到数据合成平台的研发工作,目前已与超过50家语料生态合作伙伴建立了联系,以提供高质量的有效数据集,帮助降低大模型的训练成本。

多模态大模型与商业模式的转变

尽管Scaling Law仍在发挥作用,但其增速已经放缓。黄海清预测,未来多模态大模型的应用将迎来爆发期,而ToB(企业)和ToG(政府)的商业模式将成为主流发展方向。当前,许多基础大模型公司正逐步转向特定行业的应用,预计未来中国市场上的基础大模型公司将不超过十个。金融、教育、医疗和工业等行业已经率先采用大模型技术,而在自动驾驶、具身智能和科学智能等重点领域,大模型的应用也在不断深入。

语料数据的新挑战与法律框架

为了适应大模型训练的需求,语料数据的采集和生产必须与时俱进。黄海清建议,在版权法方面应进行适当更新,以适应人工智能和大模型训练语料数据的特点。他提出,应在现有规则基础上增加和更新相关内容,确保合理使用规则能够应用于机器学习领域,平衡著作权人的权益与科技进步的需求。同时,政府应出台相关政策,支持语料数据企业研发自动化工具链平台,降低语料数据的成本,并加快对人工智能生成物保护范围的法律研究,明确相关权属与责任。

数据标注的未来趋势

展望未来,黄海清认为,AI将在数据标注和清洗过程中发挥主导作用,促使这一领域从劳动密集型向知识型和技术型转变。随着技术的进步,高质量语料数据将继续在大模型的发展中扮演至关重要的角色。

© 版权声明

相关文章