两会对话丨黄海清委员:高质量语料数据决定大模型训练效果上限,建议加快明确合理使用规则

两会对话丨黄海清委员:高质量语料数据决定大模型训练效果上限,建议加快明确合理使用规则

admin 2025-01-17 电线管理知识 3 次浏览 0个评论

“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”

在2025年上海两会期间,上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示,未来,行业垂类大模型将成为中国大模型产业的主战场。基础大模型的数量会收敛至个位数,因此更多的大模型企业应该聚焦于研究ToB(面向企业)和ToG(面向政府)的商业模式。

上海市政协委员、上海库帕思科技有限公司CEO黄海清

黄海清表示,目前阶段,国内大模型与国外相比,最大的差距在于算力和语料数据。

当前,国内在算力方面已有很多布局,但也仍面临诸多限制。在黄海清看来,能够助力企业实现“换道超车”的是语料数据。

目前业界对于“数据瓶颈”一直存在不同看法。

黄海清表示,高质量的语料数据能极大降低大模型对算力的依赖,微调过的高质量语料数据,可能仅需百卡(GPU)就能达到万卡的训练效果,“高质量语料数据决定了大模型训练效果的上限,高质量语料数据集的构建能极大降低大模型对算力的需求以及推动算力成本降低”。

他认为,此前,用于大模型训练的数据大多来自互联网公用数据,预计到2026年,这些公用数据就会消耗殆尽。此外,使用公用数据训练出来的模型,差异通常不会很大。而中文语料库在整个语料数据中的占比不足5%,数据量显得更为稀少。

黄海清表示,未来语料数据应该向以“鲜活性、真实性、大样本、完整性、多样性、高知识密度为标志的高质量语料集”的方向发展。其中,高知识密度尤为重要,“要让大模型成为博士、成为专家,首先语料和数据要具有博士生教材课程和论文期刊的水平。”

对于大模型规模法则Scaling Law(尺度定律,亦称缩放定律)是否仍然有效,黄海清认为,Scaling Law还在起作用,但速度已放缓。除了算力,高质量语料数据的限制也是重要原因。

上海的数据服务行业在国内比较来看起步不算太早,库帕思科技便是按照上海市委、市政府的要求,于2024年专门设立的语料公司,定位于功能性语料服务专业化运营平台。曾担任甲骨文(中国)软件系统有限公司上海公司总经理,腾讯云副总裁,阿里巴巴集团副总裁、阿里云中国区总裁等职的黄海清在库帕思成立后便上任CEO一职。

对于大模型行业的未来格局,黄海清认为,未来基础大模型的数量会从“百模大战”收敛到个位数,即十个以内。他判断,“消失”的那些基础大模型,“在激烈的市场竞争中,一种情况是企业走向消亡,另一种可能是企业朝着行业垂类大模型的方向发展。展望未来大模型,特别是中国大模型的发展趋势,垂类大模型将成为竞争的主战场。上海市委、市政府成立了大模型产业社区,发展行业垂类大模型,这无疑是正确的方向,因为只有行业垂类大模型才具备较高的技术门槛。”

黄海清还向记者表示,ToB和ToG市场的大模型商业模式,在未来将会成为主要探索的方向,特别是国央企智能化转型等方面,将会存在非常大的市场,与行业垂类大模型的“千帆竞发”相辅相成。

今年上海两会,黄海清带来《探索语料数据合理使用规则,推动大模型产业健康发展》的提案。黄海清表示,大模型的训练数据通常是来自海量的公开数据集和网络内容,这些数据集包括书籍、文章、网站和其他公开可用的内容。但当前我国著作权的“合理使用豁免条款”无法涵盖大模型训练,这给国内大模型公司造成了三个主要问题。

黄海清指出,一是授权难,模型公司难以通过合规渠道获取语料,有碍于基础模型和垂类模型的商业化应用推广和技术迭代创新。二是成本高,当前购买语料的价格大部分是以版权计价的方式进行,授权周期通常为1年,到期还需销毁,继续使用需要再次收费。例如:训练中国版Sora至少需要30万小时视频,如按版权计费,常规每小时4000元至5000元,总成本将超1.2亿元,此成本非一般大模型公司所能承受。根据行业经验,语料数据成本占训练总成本的10%至30%。三是风险大,人工智能相关的版权纠纷呈现不断上升趋势。

对此,黄海清建议,一是加快明确大模型语料数据的合理使用规则,推动“文本与数据挖掘”在预训练领域的适用。参考欧盟“文本与数据挖掘”合理使用条款或日本“非欣赏性原则”,实现在国内推行针对机器学习的数据合理使用,平衡著作权人权利和科技发展需要,解决授权难的问题。

二是,政府出台鼓励政策,支持语料数据企业加强自动化工具链平台研发,降低语料数据成本。围绕上海“金融、制造、教育、医疗、文旅、城市治理”等6大重点行业,“具身智能、自动驾驶、智能终端、科学智能、在线新经济”等5大关键领域,加强自动清洗算子及自动标注算法等技术研发,打造AI自动化清洗与标注工具链平台,取代传统劳动密集型人工标注,降低语料成本。

三是加快人工智能生成物保护范围的法律研究,制定规则明确的人工智能生成物的权属与责任。可借鉴美国的“可转换性”合理使用条款,对于经过“清洗、标注和注释”处理后,不会对原始数据进行原样展示的高质量语料赋予新的权利,不再受原始版权的干扰,解决风险大的问题。

转载请注明来自武汉市东西湖鑫峰电线电缆销售处,本文标题:《两会对话丨黄海清委员:高质量语料数据决定大模型训练效果上限,建议加快明确合理使用规则》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,3人围观)参与讨论

还没有评论,来说两句吧...