ChatGPT識(shí)別器準(zhǔn)確率僅26%，檢測AI生成內(nèi)容為何這么難?

更新時(shí)間：2023-02-03 16:05:32作者：智慧百科

·“OpenAI自己的檢測器對AI撰寫內(nèi)容檢出成功率為26%，比扔硬幣的概率都低，并對短文本和非英語語言支持不佳。”
·眾多大型語言模型生成的海量內(nèi)容已經(jīng)造成了信息爆炸，優(yōu)質(zhì)原創(chuàng)高質(zhì)量內(nèi)容可能更難被挖掘。濫用ChatGPT的風(fēng)險(xiǎn)還包含散播生成的逼真的虛假信息、新聞，以及AI生成內(nèi)容本身的合法性風(fēng)險(xiǎn)。

美國學(xué)校已就ChatGPT淪為作弊工具一事進(jìn)行了長達(dá)數(shù)周的討論。視覺中國資料圖

猶記得多年前人工智能（AI）領(lǐng)域熱議的話題還是“人工智能何時(shí)能通過圖靈測試”，即如果電腦能在5分鐘內(nèi)回答由人類測試者提出的一系列問題，且其超過30%的回答讓測試者誤認(rèn)為是人類所答，則電腦通過測試。
而現(xiàn)在，我們已經(jīng)要用AI幫助檢測內(nèi)容是人類寫的還是AI寫的。
2月1日，著名人工智能實(shí)驗(yàn)室OpenAI（ChatGPT開發(fā)團(tuán)隊(duì)）宣布推出AI生成內(nèi)容識(shí)別器，旨在識(shí)別文本是由電腦自動(dòng)生成還是人類撰寫，然而似乎準(zhǔn)確度堪憂。OpenAI在博客中指出，此識(shí)別器置信度正確率約為26%。
“OpenAI自己的檢測器對AI撰寫內(nèi)容檢出成功率為26%，比扔硬幣的概率都低，并對短文本和非英語語言支持不佳。”上海人工智能研究院研究員王錦對澎湃科技（www.thepaper.cn）評價(jià)道。
1月28日，斯坦福大學(xué)也推出DetectGPT以幫助教育工作者識(shí)別出ChatGPT生成的論文。此前，美國的中小學(xué)與高校已就ChatGPT淪為作弊工具一事進(jìn)行了長達(dá)數(shù)周的討論，他們擔(dān)心ChatGPT能夠根據(jù)命令編寫任何內(nèi)容，進(jìn)而可能助長學(xué)術(shù)不端并阻礙學(xué)習(xí)。
AI生成內(nèi)容識(shí)別器的技術(shù)難點(diǎn)是什么，為何效果如此一般？ChatGPT濫用有何風(fēng)險(xiǎn)？
AI生成內(nèi)容識(shí)別器原理
“AI生成內(nèi)容識(shí)別器的核心思想是首先構(gòu)建一個(gè)訓(xùn)練數(shù)據(jù)集，包含真實(shí)的內(nèi)容和AI生成的內(nèi)容，然后訓(xùn)練一個(gè)分類器來區(qū)別這兩類內(nèi)容?！盡ILA研究院知名華人學(xué)者唐建對澎湃科技解釋道。
馬里蘭大學(xué)的研究人員即通過分類出聊天機(jī)器人生成詞匯來作識(shí)別。具體而言，人工智能語言模型通過一次預(yù)測和生成一個(gè)單詞來工作。生成一個(gè)詞后，水印算法將語言模型的詞匯隨機(jī)分為“綠名單”和“紅名單”，然后提示模型選擇綠名單上的詞。
一篇文章中列入綠名單的詞越多，該文本就越有可能是由機(jī)器生成的，人類寫的文本往往包含更隨機(jī)的單詞組合。例如，對于“美麗”一詞的相關(guān)預(yù)測，水印算法可以將單詞“flower”（花）分類為綠色，將“orchid”（蘭花）分類為紅色。參與這項(xiàng)研究的馬里蘭大學(xué)助理教授湯姆·戈?duì)柎奶梗═om Goldstein）解釋說，帶有水印算法的人工智能模型更有可能使用“花”而不是“蘭花”這個(gè)詞。然而，這種新方法也有局限性，水印只有在創(chuàng)建者從一開始就嵌入到大型語言模型中時(shí)才有效。
對于OpenAI提出的基于GPT語言模型的文本分類器的原理，王錦具體解釋道，其原理也是利用海量數(shù)據(jù)做一個(gè)二分類的訓(xùn)練，訓(xùn)練數(shù)據(jù)集中包含了人工撰寫的內(nèi)容（如來自reddit，wikipedia的內(nèi)容）和AI生成內(nèi)容（來自五個(gè)不同機(jī)構(gòu)的大語言模型生成的內(nèi)容）。
當(dāng)下各機(jī)構(gòu)紛紛推出文本分類器，這與之前深度偽造技術(shù)涌現(xiàn)時(shí)出現(xiàn)的各種對抗技術(shù)（Anti-Deepfake）是否異曲同工？
從技術(shù)原理角度，智源研究院基礎(chǔ)模型研究中心研究員張博文解答道，“OpenAI以及之前出現(xiàn)的GPTZero主要是對文本分類，其中OpenAI的分類器使用的數(shù)據(jù)主要是真實(shí)文本，來自維基百科、網(wǎng)頁文本、人類創(chuàng)作的文本；生成文本來自包含ChatGPT在內(nèi)的34個(gè)AI模型。而之前出現(xiàn)的Anti-Deepfake主要包含被動(dòng)檢測和主動(dòng)防御，這兩種識(shí)別器和被動(dòng)檢測技術(shù)類似?！彼a(bǔ)充說，斯坦福大學(xué)等機(jī)構(gòu)提出的DetectGPT，以及OpenAI在研究通過給生成文本加水印的方式完成對生成文本的檢測，是類似于主動(dòng)防御的方式，不過兩項(xiàng)技術(shù)目前都沒有公布。
GPTZero是普林斯頓大學(xué)學(xué)生Edward Tian推出了一個(gè)專殺ChatGPT的應(yīng)用。GPTZero的原理是借助一些文本屬性進(jìn)行分析。首先是困惑度（perplexity），即文本對模型的隨機(jī)性，或語言模型對文本的“喜愛”程度；然后是突發(fā)度（burstiness），即機(jī)器寫作的文本在一段時(shí)間內(nèi)表現(xiàn)出的困惑度更均勻和恒定，而人類書寫的文本則不會(huì)這樣。檢測文本的“困惑性”和“突發(fā)性”這兩項(xiàng)指標(biāo)，并分別對其打分，根據(jù)統(tǒng)計(jì)學(xué)特征來確定文本是由AI寫的還是人類寫的?？傮w來說，如果這兩項(xiàng)參數(shù)得分都很低，那么該文本很有可能出自AI之手。
為何目前AI生成內(nèi)容檢測器效果不佳？
王錦認(rèn)為，原因在于文本本身的信息量不如圖像豐富、不同語言模型NLG（自然語言生成）的性能和風(fēng)格可能有差別、訓(xùn)練集本身可能含有部分AI生成內(nèi)容等等。
更具體而言，張博文說，“實(shí)際上，OpenAI的文本分類器在訓(xùn)練數(shù)據(jù)分布類似的驗(yàn)證集上效果很好，在‘挑戰(zhàn)集’（區(qū)分人類補(bǔ)全的文本/人類補(bǔ)全文本上訓(xùn)練的強(qiáng)語言模型生成文本）上，會(huì)把9%的人類創(chuàng)作文本誤識(shí)別為AI創(chuàng)作；會(huì)把26%的AI創(chuàng)作文本識(shí)別為可能是AI創(chuàng)作。”
張博文也談到這背后的技術(shù)難點(diǎn)。第一點(diǎn)在于語言模型經(jīng)過人類創(chuàng)作文本訓(xùn)練，參數(shù)量越大，越接近人類創(chuàng)作，越難以區(qū)分；第二受限于文本長度，文本長度足夠長，檢測的準(zhǔn)確率才有保障。OpenAI也在公告中明確表示自己只能檢測1000字符以上的文章。
除此之外，OpenAI還介紹了檢測器的其他幾個(gè)限制：分類器并不總是準(zhǔn)確的，它可能會(huì)錯(cuò)誤標(biāo)記AI生成的和人類寫的文本，并且語氣很自信；建議僅對英文文本使用分類器，它在其他語言上的表現(xiàn)要差得多，并且在代碼上不可靠；它無法可靠地識(shí)別非?？深A(yù)測的文本。例如，無法預(yù)測前1000個(gè)素?cái)?shù)的列表是由AI還是人類寫的，因?yàn)檎_答案總是相同的；AI生成的文本，經(jīng)過編輯之后很可能會(huì)規(guī)避掉分類器的檢測；如果輸入與訓(xùn)練集中的文本有很大的區(qū)別，分類器會(huì)做出錯(cuò)誤判斷。
ChatGPT被濫用的危害
據(jù)《紐約時(shí)報(bào)》1月16日報(bào)道，美國北密歇根大學(xué)教授Antony Aumann在為世界宗教課程評分時(shí)，發(fā)現(xiàn)一篇論文相當(dāng)出彩。該文章以罩袍禁令的道德影響為題，段落簡潔，例子恰當(dāng)，論據(jù)嚴(yán)謹(jǐn)。但在Aumann詢問之后，學(xué)生向他坦陳，這篇文章其實(shí)是用ChatGPT生成的。
《科學(xué)美國人》報(bào)道稱，資深的科學(xué)家也無法準(zhǔn)確分辨ChatGPT撰寫的科學(xué)論文。在一項(xiàng)測試中，專家錯(cuò)誤地將32%的生成摘要識(shí)別為真實(shí)摘要，將14%的真實(shí)摘要識(shí)別為生成的。
目前，因擔(dān)心影響學(xué)生的學(xué)習(xí)和ChatGPT生成內(nèi)容的準(zhǔn)確性，美國一些最大的學(xué)區(qū)已禁止在其網(wǎng)絡(luò)和設(shè)備上使用ChatGPT。包括Stack Overflow在內(nèi)的網(wǎng)站也已禁止用戶共享ChatGPT生成的內(nèi)容，其稱AI會(huì)讓用戶在正常的討論中被無用內(nèi)容淹沒。
“眾多大型語言模型生成的海量內(nèi)容已經(jīng)造成了信息爆炸，優(yōu)質(zhì)原創(chuàng)高質(zhì)量內(nèi)容可能更難被挖掘。同時(shí)，海量內(nèi)容也是內(nèi)容推送/篩選機(jī)制的挑戰(zhàn)?！蓖蹂\說。
除了抄襲、侵權(quán)、使用模型給出的錯(cuò)誤結(jié)果以及利用AI工具作弊之外，張博文認(rèn)為，濫用ChatGPT的風(fēng)險(xiǎn)還包含散播生成的逼真的虛假信息、新聞，以及AI生成內(nèi)容本身的合法性風(fēng)險(xiǎn)，“AI內(nèi)容識(shí)別器會(huì)在一些領(lǐng)域變成剛需?！?br/>1月，事實(shí)核查技術(shù)公司NewsGuard的研究人員向ChatGPT發(fā)布了100個(gè)提示，涉及美國政治和醫(yī)療保健的常見虛假敘事。在80%的回復(fù)中，聊天機(jī)器人產(chǎn)生了虛假和誤導(dǎo)性的聲明。
科技媒體《連線》2月1日撰文稱，使用大型語言模型的聊天機(jī)器人的出現(xiàn)，讓事實(shí)核查工作變得更加困難。英國事實(shí)核查慈善機(jī)構(gòu)的受托人Tim Gordon說：“生成人工智能可以產(chǎn)生什么規(guī)模（的虛假信息），以及它能做到這一點(diǎn)的速度，意味著這場競賽只會(huì)變得更難?！泵鎸@種不對稱，事實(shí)核查組織必須構(gòu)建自己的AI驅(qū)動(dòng)工具，以幫助自動(dòng)化和加速工作。這遠(yuǎn)非一個(gè)完整的解決方案，但事實(shí)核查人員希望這些新工具至少能防止他們與對手之間的差距過快擴(kuò)大。
與此同時(shí)，王錦提出，檢測器本身亦會(huì)帶來一些問題，原因在于當(dāng)前很多內(nèi)容是人機(jī)混合撰寫的，在判定時(shí)很難做二分界定。檢測有誤會(huì)帶來很嚴(yán)重的后果，比如將學(xué)生原創(chuàng)內(nèi)容判定為ChatGPT撰寫造成不公正打分。
目前，OpenAI的檢測器在評估一段給定的文本是否由AI生成時(shí)，不會(huì)正面回答是或否。根據(jù)其置信度，它會(huì)將文本標(biāo)記為“非常不可能”由AI生成（小于10%的可能性）、“不太可能”由AI生成（在10%到45%之間的可能性）、“不清楚它是否是”AI生成（45%到90%的機(jī)會(huì)）、“可能”由AI生成（90%到98%的機(jī)會(huì)）或“很有可能”由AI生成（超過98%的機(jī)會(huì)）。

本文標(biāo)簽：算法 ai 識(shí)別器分類器

上一篇：蘋果將撤銷工業(yè)設(shè)計(jì)總監(jiān)崗位 iPhone的設(shè)計(jì)靈魂會(huì)去往何處？

下一篇：亞馬遜四季度凈銷售額1374億美元同比增9% 凈利3億

中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕