资讯 更多 >>
互联网时代下 AI 与人类创造力的...
化疗一次多少钱_化疗一次多少钱_世...
战天狼评论_战天狼评价
“约”个公交来接你 江心洲试点“...
带动物名的成语_带动物名的成语大全
聊胜于无是什么意思聊(聊胜于无是...
瓷砖粘结剂国家标准_添彩瓷砖粘结剂...
全球速递!千魂暗枪士装备_千魂
糖豆电脑版怎么安装_糖豆电脑版
少年三国志礼包码(少年三国志礼包...
动态更多 >>
新智认知: 新智认知数字科技股份有...
郑州银行董秘回复:我行董事长是否...
你们,温暖了2021
西安市新增27个中风险地区 目前有1...
广西新增本土确诊病例1例
哈尔滨市全域均为低风险地区
寒潮将影响我国中东部地区 四川盆...
昆明至哈尔滨一航班发现1名入境复阳...
陕西研考:封控区内考生在原报考点...
北京今日最高气温仅5℃ 明起强冷空...
会展 更多 >>
美籍酿酒师在崇礼:中国是第二故乡...
河南项城报告2名疑似新冠肺炎病例 ...
浙江绍兴确诊病例首次零新增 上虞...
广西东兴实行全员居家隔离 启动口...
新疆全方位推进乡村振兴 “富春山...
云南瑞丽市主城区全员核酸检测结果...
内蒙古满洲里累计治愈出院本土确诊...
孙海洋夫妻驱车山东阳谷:还在为孙...
大国工匠追梦“玉米强国”40载:用...
让南海“海洋热带雨林”斑斓多彩
专题报道 
当前位置: 资讯 > >> 正文
 
互联网时代下 AI 与人类创造力的角逐:当 AI 向 AI 生成数据学习时「模型崩溃」将引发混乱
来源:站长之家     时间:2023-06-15 11:20:15

站长之家(ChinaZ.com) 6月15日消息:在大型语言模型(LLM)越来越多地依赖于 ChatGPT 和其他工具来提高效率的情况下,我们可以预见到未来很大一部分网络内容将由人工智能生成。然而,这可能对大型语言模型的未来构成严重风险,因为目前它们依赖于从网络上抓取的人类生成数据。

剑桥大学、牛津大学、多伦多大学和伦敦帝国理工学院的一组研究人员发表了一篇研究论文,对 LLMs 最终使用人工智能生成数据作为训练数据提出了警告。这篇名为《递归的诅咒:在生成数据上训练会让模型遗忘》的论文描述了一种退化过程,称为「模型崩溃」,在这种过程中,模型与现实脱节,并被自己的输出内容所破坏。

随着人工智能工具的广泛使用,这种情况很可能会发生。广泛使用人工智能将导致人工智能生成的内容被作为大型语言模型的训练数据,从而导致其输出的不准确和失真。


(资料图片仅供参考)

这个问题在大型语言模型、变分自编码器和高斯混合模型中都有观察到,随着时间的推移,它们开始「遗忘真实的基础数据分布」,因为它们所训练的数据变得污染程度很高,不再与真实世界的数据相似。

鉴于模型崩溃的严重风险,研究人员强调了获得原始分布数据的重要性,这些数据通常由人类生成。毕竟,人工智能语言模型旨在与人类进行交互,因此需要与现实保持联系,以正确模拟我们的世界。

为解决这个问题,研究人员提出了几种更智能的大型语言模型训练方法。其中一种方法是「先发优势」,强调保留对原始人工生成数据源的访问权限。

然而,由于很难区分 AI 生成的数据和人类生成的数据,该研究论文明确提出,「社区范围的协调」对于确定数据来源至关重要,以确保涉及 LLM 创建和部署的各方共享所需的信息。

论文补充说,但在人们越来越广泛地使用生成式人工智能和对技术占据岗位的担忧之间,对于人类创作者来说也存在一线希望。

研究论文推测,随着互联网上生成式人工智能数据的增加,人类创造的内容将变得越来越有价值,即使只是作为训练大型语言模型时的无污染数据来源。

(举报)

关键词:

热门推荐
猜你喜欢