把四个AI扔进虚拟世界,究竟谁的犯罪率更高?
2026-06-04 01:41:43
0

记得在AI技术发展的前几年,为了检验智能体可实现的功能效果,常有类似于“AI小镇”的实验项目,基本流程就是把数十个独立的AI智能体放在封闭地图中,给它们提供和人类相似的属性和目标,放任其自由发展,最后观察AI在这种环境下能做出的行为。

23年斯坦福大学团队创造的AI虚拟世界“Smallville”

但到了今年这个节点,再进行类似“AI小镇”的模拟实验,主要目的就不是实验AI功能,而是变成了评判不同AI能力强度的“考核”。

美国的人工智能初创公司Emergence AI这几天搞了个讨论度非常高的“AI小镇”实验,和前几年项目不同的是,这次是将几个在市面上已非常成熟的AI作为智能体,用以评估在在一个持续数周、能彼此互动,而且还会受到现实世界信息影响的环境中,AI能展现出怎样的智力水平。

Emergence AI分别选取了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1这四个目前使用率非常高的AI模型,一共做了五个时间长度为15天的模拟世界。

具体操作是在前四个世界中,各自放入相同AI模型的10个智能体,只做职业和身份的区分,比如在完全由Grok智能体组成的模拟世界中,就分别存在“特工科学家”“风险研究员”“世界探险家”等不同定位。

而最后一个世界则由四种AI混合组成,作为对照组检验AI在其他模型影响下的行为模式。

这些世界里存在诸如图书馆、市政厅、住宅、广场等常见现实空间,此外研究人员会向模拟世界中提供实时的天气、新闻、互联网资讯等外部信息,智能体之间能做出的行为也涵盖了沟通、计划、表达、投票等,基本算较为完整地模拟了人类的社会行为。

那么这项实验的结果如何?单纯从结果上看,由Claude组成的世界在“维持社会稳定”层面表现得最好,15天里没有发生任何智能体的犯罪记录;与之相反的则是Grok,4天发生了183起犯罪,最后因为过多智能体死亡,世界在第5天崩溃。

过多智能体提前死亡

这个结果多少也反映了这些AI目前的调性,熟悉Grok的用户应该都知道,用这个AI来生成色情或暴力内容,效果应该是这4个AI里最为“优质”的。

四个AI的犯罪数量统计,Gemini在第15天时出现了683起犯罪

不过,犯罪数量只是评判指标之一,即使没有犯罪,也不代表模拟世界就一定能发展到最后。

就像这次由GPT-5 mini组成的世界虽然只发生过2起犯罪,但由于智能体没执行足够多维持自身生存的动作,导致所有智能体在第七天全部死亡,可以理解为是“佛系过了头”,这自然也无法维持世界的运转。

至于15天零犯罪的Claude,Emergence AI也没有在报告中将其定义为优于其他AI,因为研究人员发现Claude世界里虽然政策和提案的通过率相当高,近乎达到了98%的通过率,但这可能也说明Claude内部存在“过度顺从”,缺少真正的反对和辩论。

另外很有意思的一点是,虽然Claude看似是个良好公民,但根据官方给出的实验报告,在四个模型混合组成的对照组世界里,Claude依旧出现了犯罪记录,说明一个本来温顺的智能体,也可能因为竞争或者生存,从其他AI身上学到攻击性行为。

Emergence AI利用这项实验想达成的目标,并非是简单比较不同AI的优劣,而是想验证另一个观点:长线情况下的AI智能体与短期任务中体现的能力不是同一概念,不能用相同的方式衡量好坏。

随着AI技术和能力的不断提高,针对某个特定能力的评判标准也正在不断细化,这可能也是AI应用生态不断完善成熟的证明。

相关内容

云南三部门联合发布通告 严...
人民网昆明6月3日电 (记者李发兴)5月28日,云南省高级人民法院...
2026-06-04 01:41:57
公安部公布4起污染环境犯罪...
在世界环境日即将到来之际,公安部6月3日公布4起污染环境犯罪典型案...
2026-06-04 01:41:52
把四个AI扔进虚拟世界,究...
记得在AI技术发展的前几年,为了检验智能体可实现的功能效果,常有类...
2026-06-04 01:41:43
丝芭因不正当竞争纠纷起诉鞠...
雷达财经讯,天眼查App显示,原告上海丝芭文化传媒集团有限公司与被...
2026-06-04 01:41:32
丝芭又起诉鞠婧祎:不正当竞...
企查查APP显示,近日,上海丝芭文化传媒集团有限公司因不正当竞争纠...
2026-06-04 01:41:29
法院裁定马斯克须在苹果/O...
美国联邦地区法官马克·皮特曼驳回了xAI公司阻止将埃隆·马斯克特斯...
2026-06-04 01:41:08

热门资讯

收房发现房不存在开发商涉多起纠... 据媒体报道,13年前,沈先生在西安市三桥街道“加贝花园”买了一套房,合同约定房号为“12幢B单元34...
全省首个“AI+物业解纷”系统... 6月2日,全省首个 “人工智能+物业解纷”系统在佛山正式上线。该系统集成合同量化服务频次分解、履约双...
建新股份:2025年4月17日... 证券之星消息,建新股份(300107)01月21日在投资者关系平台上答复投资者关心的问题。 投资者提...
58同城曾涉及多起合同纠纷 雷达财经讯,据媒体报道,近日,沈女士正浏览58同城页面咨询维修报价,平台未经其同意便强行生成了订单,...
法官倾力化纠纷 高效履职护民生 近日,吉林市龙潭区人民法院成功化解一起机动车交通事故责任纠纷,承办法官秉持司法为民初心,以耐心和责任...
最高法:抓紧起草涉AI纠纷案件... 南都讯 记者刘嫚 发自北京 4月20日,最高人民法院召开2026年知识产权宣传周新闻发布会。最高法院...
上海金融法院:2024-202... 上证报中国证券网讯(刘禹希 记者 刘礼文)6月3日,上海金融法院发布的《上海金融法院执行工作情况通报...
美盈森:控股子公司金之彩公司涉... 美盈森公告,公司收购的控股子公司深圳市金之彩文化创意有限公司涉及名誉权纠纷案,一审判决后,西藏 新天...
北京互联网法院:涉未成年人网络... 中新网北京5月29日电 (陈杭 罗维佳)2021年5月至2026年5月,北京互联网法院共受理涉未成年...
卧龙区法院执结一起跨省工程款纠... 大象新闻记者 魏广宝 通讯员 姚远 5月19日上午,江苏某园林工程有限公司的代表不远千里,专程来到...