中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. Meta大模型成了“科學造假發(fā)動機”,發(fā)布3天就在爭議中下架

        更新時間:2022-11-18 18:05:53作者:智慧百科

        Meta大模型成了“科學造假發(fā)動機”,發(fā)布3天就在爭議中下架

        夢晨 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

        Meta最新大模型差點成了“科研造假發(fā)動機”,剛出3天就在爭議中下架。

        1200億參數(shù)語言模型Galactica,在4800萬篇學術論文和各式教科書、百科等數(shù)據(jù)上訓練而來。

        (與太空堡壘卡拉狄加同名)

        其本意是想解決學術界信息過載,幫助研究人員做信息梳理、知識推理和寫作輔助,一度被認為是“科研者的福音”,或者“寫論文的Copilot”。



        But,一經(jīng)開放使用,很快就被網(wǎng)友們發(fā)現(xiàn)了大問題。

        它確實能為自己生成的內(nèi)容引用文獻,但有時這個文獻并不存在,作者卻是真實存在的人



        它能生成看起來像模像樣的科普文字,但內(nèi)容卻是完全錯誤的。



        △真空中的光速和聲速接近可還行?

        著名的Gary·AI悲觀主義者·Marcus也來吐槽,Galactica把他的出生日期、教育經(jīng)歷和研究領域等信息全搞錯了。



        對以上種種問題,馬克斯普朗克智能系統(tǒng)研究所所長Michael Black總結(jié)道:

        這將開啟一個科學深度造假(deep scientific fakes)的時代。
        會出現(xiàn)研究者從未寫過的虛假論文,這些論文隨后會被其他真實的論文引用,簡直亂套了。

        雖然他也注意到,Galactica的開發(fā)者在每個輸出內(nèi)容后都加了“內(nèi)容可能不可靠”的警告,但“潘多拉的魔盒一旦開啟,就關不上了”。

        事實上他的擔憂不無道理,AI生成內(nèi)容的速度要比人類快的多,一旦大量被搜索引擎抓取就有可能出現(xiàn)在前排,甚至被當成正確答案展示在最上面,誤導更多人。

        這樣的爭議持續(xù)了兩三天,團隊只好無奈宣布Demo暫時下架,論文和源代碼繼續(xù)開放給相關領域研究者。



        作為Meta首席科學家,LeCun對這個局面并不滿意。

        與他觀點一致的網(wǎng)友認為,Galactica是有幫助且有趣的,只是被個別人濫用了。



        本意是好的

        Galactica由Meta AI與Papers with Code合作開發(fā)。

        在論文引言部分,團隊寫到:

        2022年5月,arXiv上每天平均新增516篇論文……科學數(shù)據(jù)的增長速度更是比人們的處理能力快……一個人已經(jīng)不可能讀完特定研究領域的論文。
        搜索引擎不直接組織信息,維基百科這樣的形式需要人力來維護,研究人員持續(xù)為信息過載感到不知所措。

        因此他們提出,語言大模型可以更好的存儲、組合和推理科學知識,并提出一個終極愿景:

        神經(jīng)網(wǎng)絡將成為科學研究的下一代人機界面,就從這篇論文開始。



        本意是好的,而且Galactica的表現(xiàn)也確實不錯。

        除了文本、數(shù)學公式、代碼任務之外,它還可以執(zhí)行化學式、蛋白質(zhì)序列等多模態(tài)任務。



        Galactica 1200億參數(shù)版本在許多科學類任務上性能超越OpenAI的GPT-3、DeepMin的Chinchilla與Gopher、以及開源的BLOOM。



        然鵝,測試基準畢竟是死的,一旦進入生產(chǎn)環(huán)境開放給用戶,還是會出現(xiàn)開發(fā)時預料不到的情況。



        問題出在哪?

        在Hacker News上有人認為,語言模型終究是在“對語言建?!倍皇菍?nèi)容。

        就像AI繪畫模型一樣,你讓它畫“騎馬的宇航員”它就能畫出來,雖然這不太可能發(fā)生,但是很有趣。



        類似的討論也發(fā)生在Twitter上。如果你讓AI生成一篇關于“生活在太空的熊”的維基頁面,AI也會試著生成。

        有人認為,不,AI需要判斷出這個要求不合理。



        關鍵就在于,人們對圖片和文字的要求是不一樣的。

        圖片中的內(nèi)容不合理,人們只會覺得有趣而接受。而文字的內(nèi)容錯了,那就不可接受。

        LeCun則認為這種工具的用法應該是輔助駕駛,它不會幫你寫好論文,只是幫你在過程中減輕認知負擔。



        以谷歌為代表的AI大廠,近年來對大模型特別是生成式模型的發(fā)布非常謹慎,像是對話模型LaMDA和AI繪畫Imagen等都不開源、不給Demo或只給限定場景下的Demo。

        另一方面,以Stable Diffusion為代表開源項目推動了整個領域的技術進步與應用普及,但也在版權(quán)和生成有害內(nèi)容方面引發(fā)一些問題。

        你更支持哪種做法?或者還有第三條路么?

        Galactica:
        https://galactica.org/

        參考鏈接:
        [1]https://news.ycombinator.com/item?id=33611265
        [2]https://twitter.com/Michael_J_Black/status/1593133746282106887
        [3]https://twitter.com/paperswithcode/status/1592546933679476736


        本文標簽: 大模型  推特  論文  ai  meta  科學