JDB电子中国-美媒:AI模型将很快用完网络公开数据
2025-10-27 21:56:10
share to :

  参考动静网6月26日报导 据美国意见意义科学网站6月21日报导,一项最新研究发出正告说,最快到2026年,人工智能(AI)体系就可能用完互联网上所有免费常识。

  报导称,包括GPT-4及“克劳德3-奥普斯”(Claude 3 Opus)模子于内的AI模子需要借助包罗无数单词的收集同享资源来变患上越发智能。但最新猜测显示,这些AI模子将于2026年至2032年间的某个时刻用完所有收集公然数据。

  这象征着科技公司为搭建更好的模子,必需最先寻觅其他数据来历。新的手腕可能包括自动合成数据,转向质量较低的数据源,或者者采用更使人担心的手腕——使用存储动静及电子邮件的办事器中的私家数据。6月4日,一个科研团队于美国预印本文献库发表了这一研究结果。

  论文第一作者、美国人工智能时代研究所(Epoch AI)研究员巴勃罗·比利亚洛沃斯对于美国意见意义科学网站记者说:“如果谈天呆板人耗尽所有可用数据,而数据效率没有进一步晋升,我估计该范畴的成长将堕入相对于阻滞。模子将只会跟着发明新的算法看法及天然孕育发生新的数据而迟缓改良。”

  练习数据鞭策了AI体系的成长——帮忙AI模子摸索更繁杂的模式并植入神经收集。举例来说,谈天天生预练习转换器(ChatGPT)利用了约莫570吉字节(GB)、共计约3000亿个单词的文本数据举行练习,这些数据来自书本、收集文章、维基百科和其他收集资源。

  假如用来练习算法的数据不敷足够或者者质量较低,就可能孕育发生低质量成果。一个颇有名的例子是,美国google公司的“双子座”AI曾经建议网友吃石头或者者给披萨涂胶水。此事暗地里的缘故原由是“双子座”的部门谜底源在美国文娱社交平台红迪网站(Reddit)及嘲讽类新闻平台洋葱网(The Onion)。

  为估算互联网有几多文本资源,该科研团队利用了google网页索引,计较出今朝的网页总数约为2500亿个,此中每一个页面包罗约7000字节文本。然后,科研职员使用对于互联网和谈流量(即收集上的数据流)及于线用户勾当的后续阐发,猜测出可用数据总量的增加环境。

  研究成果显示,来自靠得住来历的高质量信息最迟将于2032年耗尽,低质量语言数据将于2030年至2050年耗尽。与此同时,图象数据将于2030年至2060年耗尽。

  跟着数据集的增长,AI模子的神经收集可以如猜测般获得晋升,这一征象被称为神经缩放定律。在是,可否经由过程提高模子效率来填补新数据的缺少,或者者封闭水龙头会不会致使模子进级住手,就成为了有待会商的问题。

  不外,比利亚洛沃斯认为,数据欠缺好像不太可能严峻故障AI模子的将来成长,这是由于企业可能经由过程多种手腕规避这一问题。

  比利亚洛沃斯说:“愈来愈多企业试图利用私家数据练习模子,例如美国元宇宙平台公司行将出台的政策变化。假如这一办法乐成落地,而且私家数据与大众收集数据同样有效,那末重要AI企业将有望于2030年之前连结充足多的数据量。”元宇宙平台公司筹算将来利用与其平台上的谈天呆板人的交互信息来练习其天生式AI。

  另外一种选择是使用合成数据来喂养饥渴的AI模子——哪怕这类要领已往只于练习游戏、编码及数学体系时被乐成利用过。

  此外,假如有企业试图于未经许可的环境下获取常识产权或者者私家信息,有专家认为这些企业就碰面临司法挑战。

  Australia麦考瑞年夜学副传授、技能及常识产权法专家丽塔·马图廖尼特于Australia“对于话”网站上撰文写道:“已经经有内容创作者抗议企业未经授权利用本身的作品来练习AI模子。有些人告状了美国微软公司、美国开放人工智能研究中央、英国‘不变’人工智能公司等企业。”(编译/刘子彦)

-JDB电子中国


深圳总部
深圳市南山区粤海街道深圳湾
青岛分部
青岛市崂山区科苑
成都分部
成都市双流区西航港街道
上海分部
上海市浦东新区张江高科技园区
南京分部
南京市江北新区