AI會和人類談判了？Meta AI新研究登Science，LeCun稱里程碑成果

更新時間：2022-11-23 14:06:15作者：智慧百科

AI都學(xué)會和人類談判了？還能成功說服人類聽它安排？

話術(shù)一流到人類完全分辨不出它是AI。

這就是Meta AI的最新成果——AI模型CICERO（西塞羅），現(xiàn)已登上Science。

嗯，就是和古羅馬著名政治家、演說家西塞羅同名。

研究人員讓這個AI西塞羅隱藏身份加入到一個外交游戲里，82名人類玩家在40場游戲中，都沒有懷疑過它其實(shí)是個AI。

而且還戰(zhàn)績斐然，全程平均分達(dá)到25.8%，是人類玩家平均分的2倍，并且最終排名為前10%。

成果一經(jīng)發(fā)布，就在網(wǎng)上引發(fā)熱議。

有人評價(jià)：這意味著AI在最具人類特點(diǎn)的游戲里戰(zhàn)勝人類，超乎想象…

LeCun都稱它為：里程碑式的研究！

目前，模型代碼已在GitHub上開源。

真有AI縱橫家那感覺了

AI嘮嗑其實(shí)一直都引人詬病，更別提外交這種需要超高話術(shù)的場景了。

它需要理解對方的語言、動機(jī)，制定自己的話術(shù)策略，并調(diào)整好措辭。

有時甚至還需要“耍心眼”，故意說一些假話給對方設(shè)套。

這種超高難度任務(wù)，怎么挑戰(zhàn)？

俗話說一口吃不成胖子。

Meta AI就想到了先從游戲場景來切入（畢竟AI在玩游戲上是老手了）。

不過和之前棋類或競技游戲不同，外交游戲并沒有那么強(qiáng)的規(guī)則性，運(yùn)籌帷幄、隨機(jī)應(yīng)變的環(huán)節(jié)不少。

實(shí)驗(yàn)中用到的游戲是webDiplomacy（以下用“外交游戲”指代它）。

這款游戲的背景是1901年的歐洲，7位玩家每人控制一個大國，通過相互合作、協(xié)商，盡可能地占領(lǐng)更多領(lǐng)土。

西塞羅的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅(qū)動的。

簡單理解，這里的對話引擎和GPT-3、LaMDA類似，戰(zhàn)略推理引擎和AlphaGo相近。

用到的對話模型，是從一個類似于2.7億參數(shù)的BART模型訓(xùn)練而來。

BART吸收了GPT和BERT各自的特點(diǎn)，它比BERT更適合文本生成的場景，還能雙向理解上下文語境信息。

具體來看，研究人員先從互聯(lián)網(wǎng)上獲取文本訓(xùn)練對話模型，然后再在實(shí)際的外交游戲場景中微調(diào)。

戰(zhàn)略推理引擎用到的是一個規(guī)劃算法（planning algorithm）。

該算法能夠基于現(xiàn)況計(jì)算出一個最優(yōu)選擇。再通過強(qiáng)化學(xué)習(xí)訓(xùn)練，懲罰模型做出的“不像人”的策略，以此讓模型給出的策略更合理。

畢竟，在外交游戲中是和人打交道，讓AI更像人也是最基本的要求之一。

而且強(qiáng)化學(xué)習(xí)這種迭代式的訓(xùn)練，可以不斷改進(jìn)AI做出的策略預(yù)測。比傳統(tǒng)方法中常用的監(jiān)督學(xué)習(xí)（即打標(biāo)簽的方式）效果更好。

實(shí)操中，西塞羅首先會根據(jù)目前為止的游戲狀態(tài)和對話，對每個人的會采取的動作做一個初步預(yù)判。

接下來，在不斷地協(xié)商過程中，它都會不斷地改進(jìn)預(yù)測，然后使用這些預(yù)測為自己和合作伙伴設(shè)置一個共同的目標(biāo)。

其次，它會根據(jù)局勢狀態(tài)、對話及其目標(biāo)，從對話模型中生成幾個候選消息，使用分類器等過濾機(jī)制過濾掉無意義的，生成最終的高質(zhì)量輸出文本。

例如，以下圖為例，在這一局中，西塞羅扮演“奧地利”。

當(dāng)玩家“意大利”向它詢問意見，自己是否應(yīng)該攻擊土耳其時，西塞羅會根據(jù)場上局勢——土耳其正在攻擊俄羅斯，判斷出這是一個兩面夾擊的好機(jī)會，然后勸意大利跟進(jìn)攻打土耳其。

這一步既建立了與意大利的伙伴關(guān)系，又消滅了一個潛在的對手。

不僅如此，談判也是西塞羅的拿手好戲。

這次西塞羅扮演的是“德國”，與玩家“法國”一直在交戰(zhàn)。這時法國南部同時受到了意大利的攻擊，于是向西塞羅請求和談。

西塞羅則趁機(jī)獅子大開口，要求法國歸還侵略的領(lǐng)土，并保證不攻擊荷蘭。雙方在討價(jià)還價(jià)中順利達(dá)成了協(xié)議。

就像上述展示的例子一樣，兩個月間，西塞羅共參與了40場外交游戲，與82名人類參賽者交鋒。

在每場比賽中，西塞羅都會發(fā)送和接收平均130條消息。

其游戲水平甚至強(qiáng)過了人類：平均得分是人類玩家的2倍以上，甚至在玩過一場以上游戲的參與者中也能排到前10% 。

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

看完西塞羅在外交上的精彩表現(xiàn)，有網(wǎng)友感慨AI的發(fā)展速度：

Deep Blue擊敗了卡斯帕羅夫，Watson擊敗了智力競賽的兩位人類冠軍，現(xiàn)在輪到Meta AI敲響馬基雅維利（近代政治思想奠基人）的大門了。

還有人表示，這難道是邁向通識語言大模型的第一步嗎？

LeCun給出了肯定回復(fù)：

至少語言是基于事實(shí)的。

不過由于這款外交游戲以爾虞我詐著稱，不少人也對此表示擔(dān)憂：

這是直接鼓勵研究人員開發(fā)更多擅長騙人的模型。

有網(wǎng)友就表示，玩這游戲甚至?xí)ヅ笥雅丁?/p>

而從AI西塞羅的戰(zhàn)績來看，它可以迷惑人類玩家，并且說服人類聽從它的策略。

所以有人就表示，這不是AI控制人類的選擇乃至生活？

不過Meta AI表示，AI西塞羅不是全沒有失誤的。

并且游戲中也還有很多需要和人類協(xié)作的環(huán)節(jié)，西塞羅的表現(xiàn)同樣很好。

目前，它還只被放在游戲場景中測試過，并沒有嘗試過在開放語境下和人類談判。

參考鏈接：
[1]https://www.science.org/doi/10.1126/science.ade9097
[2]https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/
[3]https://twitter.com/ylecun/status/1595081004108206088

本文標(biāo)簽： ai meta 西塞羅 lecun 游戲

上一篇：“一個月的VIP”撐得起愛奇藝們嗎？

下一篇：視頻號成立直播電商團(tuán)隊(duì)設(shè)三大部門，沖進(jìn)新戰(zhàn)場掙錢“養(yǎng)家”？

中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕