中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. ChatGPT大戰(zhàn)司法考試,無(wú)需微調(diào)一類(lèi)試題達(dá)人類(lèi)水平,做題家實(shí)錘

        更新時(shí)間:2023-01-04 16:05:12作者:智慧百科

        ChatGPT大戰(zhàn)司法考試,無(wú)需微調(diào)一類(lèi)試題達(dá)人類(lèi)水平,做題家實(shí)錘

        楊凈 明敏 發(fā)自 凹非寺
        量子位 | 公眾號(hào) QbitAI

        ChatGPT的下一個(gè)新身份——做題家!

        這不,它已經(jīng)在人類(lèi)各個(gè)考試中開(kāi)“卷”了。

        律師、醫(yī)生、注會(huì)什么的,它都開(kāi)始紛紛展露身手。

        比如,全球考生都頭疼的司法考試,現(xiàn)在ChatGPT在兩項(xiàng)試題達(dá)到了合格率,其中一項(xiàng)還跟人類(lèi)水平持平。(還是在沒(méi)有任何微調(diào)的基礎(chǔ)上)



        “成績(jī)”一出,瞬間引發(fā)巨大關(guān)注,網(wǎng)友:Amazing~



        還有人表示,要是讓它來(lái)參加SAT或AP考試,應(yīng)該會(huì)很有趣。



        咳咳,要是公務(wù)員考試呢?

        咱們結(jié)尾見(jiàn)分曉!

        兩項(xiàng)法考試題合格

        具體就先來(lái)看看ChatGPT在司法考試中的表現(xiàn)如何。

        美國(guó)大多數(shù)州統(tǒng)一的司法考試(UBE),有三個(gè)組成部分:選擇題(多州律師考試,MBE)、作文(MEE)、情景表現(xiàn)(MPT)。

        選擇題部分,由來(lái)自8個(gè)類(lèi)別的200道題組成,通常占整個(gè)律師考試分?jǐn)?shù)的50%。



        在這項(xiàng)研究中,研究人員對(duì)OpenAI的text-davinci-003模型(通常被稱(chēng)為GPT-3.5)在MBE的表現(xiàn)進(jìn)行評(píng)估。

        (ChatGPT正是GPT-3.5面向公眾的聊天機(jī)器人版本。)

        為了測(cè)試實(shí)際效果,研究人員購(gòu)買(mǎi)了官方組織提供的標(biāo)準(zhǔn)考試準(zhǔn)備材料,包括練習(xí)題和模擬考試。每個(gè)問(wèn)題的正文都是自動(dòng)提取的,其中有四個(gè)多選選項(xiàng),并與答案分開(kāi)存儲(chǔ),答案僅由每個(gè)問(wèn)題的正確字母答案組成,也沒(méi)有對(duì)正確和錯(cuò)誤的答案進(jìn)行解釋。

        隨后,研究人員分別對(duì)GPT-3.5進(jìn)行了提示工程、超參數(shù)優(yōu)化以及微調(diào)的嘗試。結(jié)果發(fā)現(xiàn),超參數(shù)優(yōu)化和提示工程對(duì)GPT-3.5的成績(jī)表現(xiàn)有積極影響,而微調(diào)沒(méi)有任何效果。

        在提示工程中,他們共測(cè)試了7種提示類(lèi)型。



        研究人員在上述的提示和參數(shù)值中執(zhí)行了107次樣本考試。結(jié)果在這些提示中,提示風(fēng)格#7的前三個(gè)選項(xiàng)排序表現(xiàn)最好,他們共收集了41個(gè)樣本,對(duì)這個(gè)提示進(jìn)行參數(shù)組合。

        超參數(shù)優(yōu)化中,他們?cè)u(píng)估了包括溫度系數(shù)、top p、best of、max tokens等參數(shù)。

        最終在完整的MBE練習(xí)考試中達(dá)到了50.3%的平均正確率,大大超過(guò)了25%的基線猜測(cè)率,并且在證據(jù)和侵權(quán)行為兩個(gè)類(lèi)型都達(dá)到了平均通過(guò)率。尤其是證據(jù)類(lèi)別,與人類(lèi)水平持平,保持著63%的準(zhǔn)確率。



        在所有類(lèi)別中,GPT平均落后于人類(lèi)應(yīng)試者約17%。在證據(jù)、侵權(quán)行為和民事訴訟的情況下,這一差距可以忽略不計(jì)或只有個(gè)位數(shù)。

        但總的來(lái)說(shuō),這一結(jié)果都大大超出了研究人員的預(yù)期。

        因?yàn)樗鼘?duì)答案排序與正確性有很強(qiáng)的相關(guān)性,Top2和Top3的選擇分別有71%和88%的正確率。其中“Top2”的準(zhǔn)確率全都超過(guò)了極限,有五個(gè)類(lèi)別均超過(guò)了人類(lèi)平均水平。而“Top3”的準(zhǔn)確度更高,在證據(jù)這一表現(xiàn)中甚至達(dá)到了98%。

        這也證實(shí)了它對(duì)法律領(lǐng)域的一般理解,而非隨機(jī)猜測(cè)。接下來(lái)他們將進(jìn)一步對(duì)法考的其他兩部分:作文和情景表現(xiàn)進(jìn)行上述的研究。

        ChatGPT能當(dāng)考霸嗎?

        谷歌資深軟件工程師肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列測(cè)試,涉及司法、醫(yī)學(xué)、會(huì)計(jì)學(xué)、化學(xué)等多個(gè)領(lǐng)域。

        分?jǐn)?shù)最高的一門(mén)是紐約州高中畢業(yè)英語(yǔ)語(yǔ)言藝術(shù)考試,ChatGPT正確率達(dá)到了91.6%。

        因?yàn)槭?022年8月的考試,所以ChatGPT數(shù)據(jù)庫(kù)中肯定不包含考試內(nèi)容。對(duì)于陌生的24道考題,它只錯(cuò)了2題。



        物理/化學(xué)考試中,ChatGPT的表現(xiàn)也不錯(cuò),正確率達(dá)到了77.7%,45道題目中答對(duì)了35道。



        前不久,谷歌醫(yī)療大模型Med-PaLM通過(guò)美國(guó)醫(yī)師執(zhí)照試題(USMLE)驗(yàn)證。

        ChatGPT也不甘于落后,同樣挑戰(zhàn)了USMLE的第一階段基礎(chǔ)醫(yī)學(xué)考試。

        去掉有圖像的題目后(因無(wú)法輸入對(duì)話框),ChatGPT正確率達(dá)70%



        其余則是在司法方面,工程師肯尼斯老哥讓ChatGPT嘗試了一些非正式題目。

        比如美國(guó)律師職業(yè)道德考試(MPRE)的示例題目(共15道),ChatGPT答對(duì)了9道,正確率60%。

        面對(duì)50道律師資格考試模擬試題,ChatGPT的正確率也維持在了70%,答對(duì)35道。

        此外,在佛羅里達(dá)農(nóng)工大學(xué)法學(xué)院的入學(xué)考試中,ChatGPT取得了149分,排名在前40%。其中閱讀理解類(lèi)題目表現(xiàn)最好。



        表現(xiàn)最差的,還是數(shù)學(xué)題。

        在CPA注會(huì)考試中,ChatGPT的正確率只有40%??夏崴估细邕€在嘗試一些調(diào)教方法,讓它更聰明一些。



        總之,ChatGPT在各種考試中的表現(xiàn),還是讓人有些意外。

        有網(wǎng)友已經(jīng)產(chǎn)生危機(jī)感了:

        damn,我的工作要被搶了!



        有人分析,如果直接讓AI來(lái)插手司法相關(guān)的判斷,風(fēng)險(xiǎn)真的很大,但如果后期有專(zhuān)人來(lái)審核它的輸出結(jié)果,那么AI將能夠很好提升律師的工作效率。



        還有人表示,如果能保證任何數(shù)據(jù)都不泄露的話,那ChatGPT將能夠推動(dòng)更多行業(yè)平民化。



        或許正如肯尼斯老哥說(shuō)的那樣,人類(lèi)+電腦的組合已經(jīng)超越了人類(lèi)自身能力,這就是計(jì)算機(jī)當(dāng)下正在進(jìn)行的突破。



        One More Thing

        最后,我們也讓ChatGPT試了試國(guó)內(nèi)法考的題目~

        先說(shuō)結(jié)果,3道選擇題,ChatGPT都沒(méi)有答對(duì)……雖然解釋得頭頭是道,但它應(yīng)該確實(shí)沒(méi)有讀過(guò)我國(guó)的法條。



        △參考答案D

        (這答案羅翔老師看了直搖頭)



        △參考答案A

        換成公務(wù)員行測(cè)試題呢?沒(méi)想到ChatGPT的答案對(duì)了,可是過(guò)程和答案似乎完全沒(méi)關(guān)系……



        這……怎么感覺(jué)AI秒算結(jié)果,但隨便編了個(gè)過(guò)程來(lái)糊弄人類(lèi)啊~

        參考鏈接:
        [1]https://twitter.com/_akhaliq/status/1609734525461975040
        [2]https://github.com/mjbommar/gpt-takes-the-bar-exam
        [3]https://arxiv.org/abs/2212.14402
        [4]https://twitter.com/pythonprimes/status/1601664776194912256