中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 數(shù)據(jù)量不夠怎么辦?谷歌機器人大牛:找別人借!

        更新時間:2023-01-21 10:05:28作者:智慧百科

        數(shù)據(jù)量不夠怎么辦?谷歌機器人大牛:找別人借!


        新智元報道

        編輯:LRS

        【新智元導(dǎo)讀】機器人缺數(shù)據(jù)訓(xùn)練,那就向語言模型「借」一點!

        2019年3月,機器學(xué)習(xí)先驅(qū)、強化學(xué)習(xí)大牛Richard S. Sutton發(fā)表了一篇名為「苦澀的教訓(xùn)」(The Bitter Lesson)的文章,曾經(jīng)轟動一時。

        Sutton認為過去70年走過人工智能彎路中,「堆算力」可能是我們最終實現(xiàn)有效的通用學(xué)習(xí)方法,而非人類專家設(shè)計的復(fù)雜知識。


        最近谷歌AI的研究人員Karol Hausman提出了「苦澀的教訓(xùn)2.0版本」,他認為在機器人之外的領(lǐng)域(比如大型語言模型)中尋找到一種可以大規(guī)?!干蓴?shù)據(jù)」的方式,可能是機器人領(lǐng)域這么多年發(fā)展下來學(xué)到的苦澀教訓(xùn)。


        網(wǎng)友甚至還直接預(yù)測出了「苦澀的教訓(xùn)3.0」:當(dāng)你意識到「基礎(chǔ)模型的創(chuàng)造者」比你更有能力對模型進行微調(diào)時,在大型預(yù)訓(xùn)練模型上進行微調(diào)的整個想法就不攻自破了。因為微調(diào)對他們來說非常便宜,而且他們有更多的計算能力。他們可以直接向客戶出售服務(wù),而非向「中介機構(gòu)」提供API來訪問。

        (扎心了...)

        Karol Hausman的主要研究方向是使機器人能夠在現(xiàn)實環(huán)境中基于最少量監(jiān)督(minimal supervision)獲得通用技能。他也是斯坦福大學(xué)機器人研究和人工智能專業(yè)的兼職教授(adjunct professor)。

        苦澀的教訓(xùn)2.0

        在The Bitter Lesson中,Sutton提出:

        從歷時70年的人工智能研究中可以學(xué)到的最大教訓(xùn)是,提升計算量的一般方法是最有效的,而且能大幅提升性能。其根本原因是摩爾定律...

        理由是這樣的:

        1. 我們還不知道如何構(gòu)建通用人工智能,但我們知道它需要大量的計算;

        2. 我們可以認識到該領(lǐng)域之外的一個趨勢: 計算越來越便宜;

        3. 讓我們致力于開發(fā)符合這一趨勢的人工智能方法。

        轉(zhuǎn)過頭再來看看機器人技術(shù),眾所周知,機器人技術(shù)的最大瓶頸是 缺乏數(shù)據(jù) (沒有網(wǎng)絡(luò)規(guī)模的機器人動作數(shù)據(jù)集)。

        也就是說我們已經(jīng)假設(shè)了僅使用機器人本身不可能為通用機器人的訓(xùn)練生成足夠的數(shù)據(jù)。


        所以我們需要尋求他路,找到其他方式來提供這些數(shù)據(jù)給機器人。

        換句話說,我們希望機器人學(xué)習(xí)駕馭其他領(lǐng)域的進步浪潮,為機器人提供更多的數(shù)據(jù)。


        所以整個推理過程類似于:

        1. 我們還不知道如何制造通用機器人,但我們知道它們需要大量的數(shù)據(jù);

        2. 機器人技術(shù)(robitics)之外的趨勢是什么?

        3. 研究利用這一趨勢的機器人學(xué)習(xí)方法。

        Karol Hausman將這一領(lǐng)悟稱為 苦澀的教訓(xùn)2.0(機器人領(lǐng)域限定版) 。

        為了避免事后才明白這個教訓(xùn),我們需要嘗試預(yù)測第2點中的趨勢,并研究利用它的方法。

        我們正在尋找一種機器人技術(shù)之外的趨勢(就像摩爾定律也是人工智能領(lǐng)域外的趨勢) ,這種技術(shù)將為機器人的發(fā)展帶來更多的數(shù)據(jù)。

        鑒于人工智能的最新進展,我認為這一趨勢可能是基礎(chǔ)模型(foundation models),原因有三:

        1. 機器人之外的基礎(chǔ)模型有著巨大的研究價值,并吸引了大量的研究人員;

        2. 基礎(chǔ)模型以通過數(shù)據(jù)和計算進行擴展(scale);

        3. 基礎(chǔ)模型在理解世界方面正變得越來越強大。


        如果我們把基礎(chǔ)模型看作是蒸餾(distilled)出來的互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集,并假定我們可以在機器人技術(shù)中利用它們,那基礎(chǔ)模型可以提供大量的數(shù)據(jù),而這些數(shù)據(jù)也正是機器人迫切需要以了解周圍世界的。

        總而言之,我認為下一個慘痛的教訓(xùn)可能會是:

        從70年的人工智能研究中可以學(xué)到的最大教訓(xùn)是,利用基礎(chǔ)模型的一般方法最終是最有效的。


        吸取教訓(xùn)

        Karol Hausman同時分享了一些他們利用該教訓(xùn)發(fā)表的一些相關(guān)研究成果。

        SayCan

        大型語言模型可以編碼關(guān)于世界的豐富的語義知識,但這種知識原則上對于那些旨在執(zhí)行用自然語言表達的高層次、時間延伸的指令的機器人非常有用。

        然而,語言模型的一個重大缺陷是它們?nèi)狈ι舷挛幕A(chǔ),這使得它們難以在給定的現(xiàn)實環(huán)境中進行決策。


        例如,要求語言模型描述如何清理灑出來的東西可能會生成一個合理的敘述,但它可能不適用于需要在特定環(huán)境中執(zhí)行此任務(wù)的特定智能體,如機器人。

        研究人員提出通過預(yù)訓(xùn)練的行為來提供這一基礎(chǔ),這些行為可以被用來微調(diào)模型,以提出既可行又適合上下文的自然語言行為。


        論文鏈接: https://say-can.github.io/assets/palm_saycan.pdf

        項目鏈接: https://say-can.github.io/

        機器人可以充當(dāng)語言模型的「手和眼睛」,而語言模型提供關(guān)于任務(wù)的高級語義知識。

        文章中展示了如何將低級任務(wù)與大型語言模型相結(jié)合,以便語言模型提供執(zhí)行復(fù)雜和時間擴展指令的過程的高級知識,而與這些任務(wù)相關(guān)的價值函數(shù)提供了將這些知識與特定物理環(huán)境聯(lián)系起來所必需的基礎(chǔ)。

        實驗中在一些現(xiàn)實世界的機器人任務(wù)對該方法進行評估,結(jié)果表明,這種方法是能夠完成長期的、抽象的、自然語言指令的移動機械手。


        在論文的后續(xù)更新PaLM-SayCan中,研究人員發(fā)現(xiàn)確實觀察到了「苦澀的教訓(xùn)2.0」版本中的行為,即僅通過升級模型中的LLM到更高性能的PaLM,就可以得到1)更好的性能;2)思維鏈提示;3)處理其他語言的查詢。

        內(nèi)心獨白

        大型語言模型(LLMs)的推理能力可以應(yīng)用于自然語言處理以外的領(lǐng)域,如機器人的規(guī)劃和互動。

        這些具體的問題要求智能體從多個語義層次上來理解世界:可用的技能組合,這些技能如何影響世界,以及世界的變化如何映射到語言。

        在具身環(huán)境中進行規(guī)劃的LLMs不僅需要考慮做什么技能,還需要考慮如何和何時做這些技能,而且這些答案可能會隨著時間的推移而改變,以回應(yīng)智能體自己的選擇。

        這項工作研究了在這種具身環(huán)境中使用的LLM,在多大程度上可以對通過自然語言提供的反饋源進行推理,而無需任何額外的訓(xùn)練。


        論文鏈接: https://arxiv.org/abs/2207.05608

        項目鏈接: https://innermonologue.github.io/

        文中提出,通過利用環(huán)境反饋,LLMs能夠形成一種內(nèi)心獨白(inner monologue),使它們能夠在機器人控制場景中進行更豐富的處理和計劃。

        實驗中研究了各種反饋來源,如成功檢測、物體識別、場景描述和人類互動,從結(jié)果中可以發(fā)現(xiàn),閉環(huán)語言反饋明顯改善了三個領(lǐng)域的高水平指令完成情況,包括模擬和真實的桌面重新安排任務(wù)以及真實廚房環(huán)境中的長距離移動復(fù)制任務(wù)。

        參考資料:

        https://www.reddit.com/r/MachineLearning/comments/10aq9id/d_bitter_lesson_20/

        https://twitter.com/hausman_k/status/1612509549889744899