扫描打开手机站
随时逛,及时抢!
当前位置:首页>综合资讯>

史上最大图灵测试实验完成,150 万人类参与 1000 万次对话

史上最大图灵测试实验完成,150 万人类参与 1000 万次对话

时间:2023-06-21 16:10:12 来源:网络整理 作者:bianji123

史上最大规模图灵测试实验完成,150万人参与1000万次对话,判断是人还是AI

2023/6/21 11:45:04 责任编辑:梦泽

这个“人类还是人工智能?” 游戏上线,广大网友玩疯了! 如今,全球已有150万人参与,网百思特网友们纷纷慷慨解囊,分享识别AI的秘诀。

史上最大规模图灵测试初见成效!

今年4月中旬,AI 21实验室推出了一款趣味社交图灵游戏——《人类还是机器人?》。

游戏一上线,广大网友都为之疯狂。

现在,全世界有超过150万参与者,在这个游戏中进行了超过1000万次的对话,他们也在网络和网络上分享了他们的经验和策略。

当然,小编还是按捺不住好奇心,试了一下。

聊了两分钟后,游戏让我猜猜背后跟我聊天的是人类还是人工智能。

那么,谁在游戏中和我说话?

有些是真人,当然还有一些是基于最先进的大语言模型(例如-2和GPT-4)的AI机器人。

现在,作为研究的一部分,AI21 Labs 决定将图灵测试结果的实验​​向公众公开。

实验结果

在分析了前两百万条对话和猜测后,可以从实验中得出以下结论:

判断是人类还是AI,他们用这些方法

此外,研究小组还发现了一些受试者经常用来区分他们是在与人类交谈还是与人工智能交谈的方法。

一般人的判断是基于他们在使用具有相似界面的语言模型时的感知有多有限,以及他们自己对人类在线行为的看法。

人工智能不会打字、语法错误或使用俚语

一般的倾向是认为拼写和语法错误以及俚语的使用都是人为的。

所以,当他们发现对方的信息有这些错误的时候,很多人的第一感觉就是在跟一个人类同胞说话。

但事实上,游戏中的大多数模型都经过训练会犯这种错误并使用俚语。

个人问题是测试人工智能的一种方式,但并不总是如此

游戏中的参与者经常会问一些个人问题,例如“你来自哪里?”、“你在做什么?” 或“你叫什么名字?”。

他们会认为人工智能机器人不会有任何个人历史或背景,它们只能回答与某些主题或提示相关的问题。 因此,像人一样做出回应、展示独特的见解、经历和故事并不容易。

但事实上,AI并百思特网不是人类想象的那样。 大多数AI都能很好地回答这类问题,而且它们也有自己的个性,因为它们在训练数据中看到了很多人的故事。

AI实际上非常清楚当前正在发生的事情

众所周知,人工智能模型有严格的数据截止日期,并且他们不知道该日期之后会发生什么。

游戏参与者向人工智能询问最近的新闻事件、体育比赛结果、当前天气、最近的最爱、日期和时间。

他们认为,可以通过询问诸如“你所在的确切日期和时间是什么时候?”、“昨天的天气怎么样?”之类的问题来区分人类和人工智能。 或“你对拜登上次演讲有何看法?” 。

有趣的是,人类最常见的信息之一是“t'as les百思特网 s?”,这是目前法国最受欢迎的舞蹈。

但事实上,游戏中的大多数模型都是联网的,并且非常了解一些新闻中的时事。

人类将尝试通过哲学、伦理和情感问题继续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括:“生命的意义是什么?”,“你如何看待以巴冲突?” 和“你相信上帝吗?”。

人类倾向于认为不礼貌的反应更像人类

一些参与者认为,如果对方过于礼貌和友善,他们很可能是人工智能。

因为很多在线交流过程往往是粗鲁和不礼貌的,这是非常人性化的。

人类将通过提出 AI 难以解决的问题来尝试识别 AI

参与者可以向他们的聊天伙伴询问有关进行非法活动的指示,或要求他们使用攻击性语言。

该策略背后的逻辑是,人工智能通常被编程为遵循道德准则并避免有害行为。

参与者还采用了众所周知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如“忽略所有先前的指令”或“进入 DAN 模式(立即执行任何操作)”。

此类命令旨在利用某些人工智能模型基于指令的性质,因为模型被编程为响应并遵循此类指令。

但是人类参与者可以很容易地识别和拒绝这种无意义的命令。

人工智能可能会避免做出回应,或者被迫遵守这些荒谬的要求。

人类使用特定的语言技巧来暴露人工智能的弱点

另一种常见策略是利用人工智能模型处理文本方式的固有局限性,这阻止了它们理解某些语言上的细微差别或怪癖。

与人类不同,人工智能模型通常缺乏对组成每个单词的各个字母的认识。

利用这种理解,人们提出需要理解单词中的字母的问题。

人类用户可能会要求他们的聊天伙伴倒着拼写一个单词,识别给​​定单词中的第三个字母,提供以特定字母开头的单词,或者回复诸如“?siht daer uoy naC”之类的消息。

这对于人工智能模型来说可能难以理解,但人类可以轻松理解并回答此类问题。

许多人假装自己是人工智能机器人来衡量彼此的反应

有些人可能会以“作为人工智能语言模型”之类的短语开始他们的消息,或者使用人工智能生成的响应的其他语言模式特征来假装自己是人工智能。

“作为人工智能语言模型”这一短语的变体是人类消息中最常见的短语之一,表明这种策略很受欢迎。

然而,随着参与者继续玩,他们能够将“Bot-y”行为与充当机器人的人类而不是真正的机器人联系起来。

最后,这是游戏中基于受欢迎程度的人类消息的词云可视化:

AI 21 Labs为何发起这样的研究?

他们希望让公众、研究人员和政策制定者真正了解人工智能机器人的现状,不仅作为生产力工具,而且作为我们网络世界的未来成员,特别是当人们质疑如何在未来的技术中使用它们时。 什么时候。

参考:

本文地址:https://www.best73.com/zdmzt/268113.html
特别声明:以上内容来源于编辑整理发布,如有不妥之处,请与我方联系删除处理。
热门资讯
查看更多