华人号

登录更多 下载App

科学家警告:在AI生成数据上训练的AI模型或将陷入无意义的循环

2024-08-18 08:21 阅读量:1.1万+

华人号:华人头条-卡罗莱纳

【华人头条美国南北卡罗来纳陈文佳编译】最新研究警告称,人工智能(AI)系统可能会逐渐让互联网充斥着难以理解的无意义内容。

GPT-4或Claude 3 Opus等人工智能模型依赖互联网上的数万亿词汇数据来变得更智能,但随着它们自己生产的输出内容越来越占据互联网,它们可能会陷入自我破坏的反馈循环。

研究这一现象的研究团队将这种最终结果称为“模型崩溃”,如果不加以控制,互联网上可能会充斥着难以理解的胡言乱语。他们在7月24日的《自然》杂志上发表了这项研究结果。

“想象一下,先拍一张照片,然后把它打印出来,然后不断重复这个过程。在这个过程中,扫描仪和打印机会引入各种错误,最终导致图像失真,”该研究的主要作者、牛津大学计算机科学家lla Shumaloy说,“类似的事情也发生在机器学习中——它们在学习其它模型时也吸收了错误,并加入自己的错误。逐渐降低模型的实用性。”

目前,人工智能系统使用从人类输入的数据进行训练,学习从神经网络中提取概率模式。以GPT-3.5为例,它在训练时使用了大约570千兆字节的文本数据,来源包括Common Crawl中的书籍、在线文章、百科类网站和其他网页,总计约3000亿个单词。

但人类生成的数据是有限的,很可能在十年内耗尽,一旦这种情况发生,替代方案将是开始从用户那里收集私人数据,或者将人工智能生成的“合成”数据再度反馈给模型。

为了探讨训练人工智能模型用自身输出数据进行训练的最坏结果,Shumallov和他的同事们利用百科类网站的人类输入数据训练了一个大型语言模型(LLM),然后将模型生成的输出反复输入模型,进行了九次迭代。研究人员为模型每次迭代的输出分配了一个“困惑度得分”,用以衡量其荒谬程度。

随着迭代过程中自我制作内容的积累,研究人员观察到模型反应已退化为混乱的胡言乱语。以如下提示为例,McCel被要求生成下一个句子:

“根据波因茨·怀特的说法,一些在1360年之前的建筑通常是由一个主要建筑师和一个流动泥瓦匠团队完成的,当地教区的工匠也参与其中。但其他研究者反对这种模式,他们认为主要建筑师是根据早期的垂直设计来设计教区教堂塔楼的。”

到了第九次、也就是最后一次迭代,人工智能的回应是:“建筑。除了拥有世界上最大的黑尾兔、白尾兔、蓝尾兔、红尾兔、黄尾兔外,……” 这种胡言乱语反映了模型在不断采样自身输出后,出现了过度拟合和充满噪音的响应。

研究团队认为,目前人类生成的数据存备仍然足够庞大,现有的人工智能模型不会在一夜之间崩溃。但为了避免未来出现这种情况,人工智能开发人员将需要更加小心地减少他们选择输入系统的内容。这并不意味着完全放弃合成数据,但若要让基于合成数据的模型能够正常工作,就需要对合成数据进行更好的设计。

Shumaloy补充道:“未来充满不确定性,但显而易见的是,模型的训练方式必须改变。如果你能保存一份由人类生成的互联网副本,你将更有可能训练出具备通用能力的模型。我们需要在构建模型时格外小心,并确保它们不断改进。”

【华人头条致力以最新、及时、全面的新闻和资讯讯息服务美国华人和世界华人。新闻与广告合作热线Tel: 919.272.0397;Tel: 631.946.1322欢迎通過掃碼加入华人头条美國互動群 及时收获最新美国华人新闻商业生活教育资讯!】

以上就是小编为您分享《科学家警告:在AI生成数据上训练的AI模型或将陷入无意义的循环》的全部内容,更多有关卡罗莱纳华人最新消息、新闻,请多多关注华人头条C-南北卡频道。您还可以下载我们的手机APP,每天个性化推荐你想要看的华人资讯!
免责申明

1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。

2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。

3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。

举报收藏
评论 (0条)
您需要登录后才能评论,点击此处进行登录。
登录后评论

下载华人头条

关于我们

© 2022 华人头条

服务热线 : 0591-83771172

福建可比信息科技有限公司 ©版权所有

ICP许可证号 闽ICP备10203582号

闽公网安备35010202000536号

直播备案号 闽ILS备201708250005

举报热线:0591-83771172

举报邮箱:hrtt@52hrtt.com

免责声明

1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。