中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 強(qiáng)化學(xué)習(xí)也有基礎(chǔ)模型了!DeepMind重磅發(fā)布AdA,堪比人類的新環(huán)境適應(yīng)能力

        更新時(shí)間:2023-01-24 16:05:29作者:智慧百科

        強(qiáng)化學(xué)習(xí)也有基礎(chǔ)模型了!DeepMind重磅發(fā)布AdA,堪比人類的新環(huán)境適應(yīng)能力


        新智元報(bào)道

        編輯:LRS

        【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)也要進(jìn)入預(yù)訓(xùn)練時(shí)代了!

        基礎(chǔ)模型(foundation models) 在監(jiān)督和自監(jiān)督學(xué)習(xí)問題上展現(xiàn)出強(qiáng)大的領(lǐng)域適應(yīng)性(adaption)和可擴(kuò)展性(scalability),但強(qiáng)化學(xué)習(xí)領(lǐng)域仍然沒有基礎(chǔ)模型。

        最近DeepMind的Adaptive Agents團(tuán)隊(duì)提出了一種 人-時(shí)間尺度(human-timescale)自適應(yīng)智能體AdA(Adaptive Agent) ,證明經(jīng)過大規(guī)模訓(xùn)練后的RL智能體也能具有通用上下文的學(xué)習(xí)能力,該算法可以像人一樣快速適應(yīng)開放式的具身3D問題。


        論文鏈接:https://arxiv.org/abs/2301.07608

        在一個(gè)巨大的動(dòng)態(tài)空間環(huán)境中,自適應(yīng)智能體展現(xiàn)出即時(shí)的假設(shè)驅(qū)動(dòng)的探索,能夠有效地利用獲得的知識(shí),而且可以接受第一人稱演示作為提示(prompt)。

        研究人員認(rèn)為其適應(yīng)性主要來源于 三個(gè)因素 :

        1. 在一個(gè)巨大的、平滑的和多樣化的任務(wù)分布中進(jìn)行元強(qiáng)化學(xué)習(xí);

        2. 一個(gè)參數(shù)化的、基于注意力的大規(guī)模記憶結(jié)構(gòu)的策略;

        3. 一個(gè)有效的自動(dòng)curriculum,在代理能力的前沿對(duì)任務(wù)進(jìn)行優(yōu)先排序。

        實(shí)驗(yàn)部分展示了與網(wǎng)絡(luò)規(guī)模、記憶長度和訓(xùn)練任務(wù)分布的豐富程度有關(guān)的特征性擴(kuò)展規(guī)律;研究人員認(rèn)為該結(jié)果為日益普遍和適應(yīng)性強(qiáng)的RL智能體奠定了基礎(chǔ),智能體在開放領(lǐng)域環(huán)境仍然表現(xiàn)良好。

        RL基礎(chǔ)模型

        人類 往往能夠在 幾分鐘內(nèi)適應(yīng)一個(gè)新的環(huán)境 ,這是體現(xiàn)人類智能的一個(gè)關(guān)鍵特性,同時(shí)也是通往通用人工智能道路上的一個(gè)重要節(jié)點(diǎn)。

        不管是何種層次的有界理性(bounded retionality),都存在一個(gè)任務(wù)空間,在這個(gè)空間中,智能體無法以zero-shot的方式泛化其策略;但如果智能體能夠非??焖俚貜姆答佒袑W(xué)習(xí),那么就可能取得性能提升。

        為了在現(xiàn)實(shí)世界中以及在與人類的互動(dòng)中發(fā)揮作用,人工智能體應(yīng)該能夠在「幾次互動(dòng)」中進(jìn)行快速且靈活的適應(yīng),并且應(yīng)該在可用數(shù)據(jù)量提升時(shí)繼續(xù)適應(yīng)。

        具體來說,研究人員希望訓(xùn)練出的智能體在測(cè)試時(shí),只需要在一個(gè)未見過的環(huán)境中給定幾個(gè)episode的數(shù)據(jù),就能完成一個(gè)需要試錯(cuò)探索的任務(wù),并能隨后將其解決方案完善為最佳的行為。

        元強(qiáng)化學(xué)習(xí)(Meta-RL) 已經(jīng)被證明對(duì)快速的語境適應(yīng)是有效的,然而,不過元RL在獎(jiǎng)勵(lì)稀疏、任務(wù)空間巨大且多樣化的環(huán)境中作用有限。

        這項(xiàng)工作為訓(xùn)練RL基礎(chǔ)模型鋪平了道路;也就是說,一個(gè)已經(jīng)在龐大的任務(wù)分布上進(jìn)行了預(yù)訓(xùn)練的智能體,在測(cè)試時(shí),它能以few-shot的方式適應(yīng)廣泛的下游任務(wù)。

        自適應(yīng)智能體(AdA)能夠在具有稀疏獎(jiǎng)勵(lì)的巨大開放式任務(wù)空間中進(jìn)行人類時(shí)間尺度適應(yīng),不需要任何提示、微調(diào)或訪問離線數(shù)據(jù)集。

        相反,AdA表現(xiàn)出假設(shè)驅(qū)動(dòng)的探索行為,利用即時(shí)獲得的信息來完善其策略,能夠有效地獲取知識(shí),在第一人稱像素觀察的部分可觀察的三維環(huán)境中,在幾分鐘內(nèi)適應(yīng)獎(jiǎng)勵(lì)稀疏的任務(wù)。


        自適應(yīng)智能體Ada

        研究人員提出了一種基于記憶的元RL通用和可擴(kuò)展的方法以生成自適應(yīng)智能體(AdA)

        首先在XLand 2.0中訓(xùn)練和測(cè)試AdA,該環(huán)境支持按程序生成不同的三維世界和多人游戲,具有豐富的動(dòng)態(tài)性,需要智能體擁有足夠的適應(yīng)性。


        該訓(xùn)練方法結(jié)合了三個(gè)關(guān)鍵部分:1)指導(dǎo)智能體學(xué)習(xí)的課程(curriculum);2)基于模型的RL算法來訓(xùn)練具有大規(guī)模注意力記憶的代理;以及,3)蒸餾以實(shí)現(xiàn)擴(kuò)展。

        1. 開放端任務(wù)空間:XLand 2.0

        XLand 2.0相比XLand 1.0擴(kuò)展了生產(chǎn)規(guī)則的系統(tǒng),其中每條規(guī)則都表達(dá)了一個(gè)額外的環(huán)境動(dòng)態(tài),從而具有更豐富、更多樣化的不同過渡功能。

        XLand 2.0是一個(gè)巨大的、平滑的、多樣化的適應(yīng)問題的任務(wù)空間,不同的任務(wù)有不同的適應(yīng)性要求,如實(shí)驗(yàn)、工具用法或分工等。

        例如,在一個(gè)需要實(shí)驗(yàn)的任務(wù)中,玩家可能需要識(shí)別哪些物體可以有用地結(jié)合,避免死胡同,然后優(yōu)化他們結(jié)合物體的方式,就像一個(gè)玩具版的實(shí)驗(yàn)化學(xué)。


        每個(gè)任務(wù)可以進(jìn)行一次或多次試驗(yàn),試驗(yàn)之間的環(huán)境會(huì)被重置,但智能體記憶不會(huì)被重置。

        上圖中突出顯示的是兩個(gè)示例任務(wù),即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」,展示了目標(biāo)、初始物體、生產(chǎn)規(guī)則以及智能體需要如何與它們互動(dòng)以解決任務(wù)。

        2. 元強(qiáng)化學(xué)習(xí)

        根據(jù)黑箱元RL問題的設(shè)置,研究人員將任務(wù)空間定義為一組部分可觀察的馬爾科夫決策過程(POMDPs)。

        對(duì)于一個(gè)給定的任務(wù),試驗(yàn)的定義為從初始狀態(tài)到終端狀態(tài)的任意轉(zhuǎn)換序列。

        在XLand中,當(dāng)且僅當(dāng)某個(gè)時(shí)間段∈[10s, 40s]已經(jīng)過去時(shí),任務(wù)才會(huì)終止,每個(gè)任務(wù)都有具體規(guī)定。環(huán)境以每秒30幀的速度變化,智能體每4幀觀察一次,因此任務(wù)長度以時(shí)間為單位,范圍為[75, 300]。

        一個(gè)episode由一個(gè)給定任務(wù)的試驗(yàn)序列組成。在試驗(yàn)邊界,任務(wù)被重置到一個(gè)初始狀態(tài)。

        在領(lǐng)域內(nèi),初始狀態(tài)是確定的,除了智能體的旋轉(zhuǎn),它是統(tǒng)一隨機(jī)抽樣的。

        在黑箱元RL訓(xùn)練中,智能體利用與廣泛分布的任務(wù)互動(dòng)的經(jīng)驗(yàn)來更新其神經(jīng)網(wǎng)絡(luò)的參數(shù),該網(wǎng)絡(luò)在給定的狀態(tài)觀察中智能體的行動(dòng)政策分布提供參數(shù)。

        如果一個(gè)智能體擁有動(dòng)態(tài)的內(nèi)部狀態(tài)(記憶),那么元RL訓(xùn)練通過利用重復(fù)試驗(yàn)的結(jié)構(gòu),賦予該記憶以隱性的在線學(xué)習(xí)算法。

        在測(cè)試時(shí),這種在線學(xué)習(xí)算法使智能體能夠適應(yīng)其策略,而無需進(jìn)一步更新神經(jīng)網(wǎng)絡(luò)權(quán)重,也就是說,智能體的記憶不是在試驗(yàn)邊界被重置,而是在episode邊界被重置。

        3. 自動(dòng)課程學(xué)習(xí)(Auto-curriculum learning)

        鑒于預(yù)采樣任務(wù)池的廣度和多樣性,智能體很難用均勻采樣進(jìn)行有效地學(xué)習(xí):大多數(shù)隨機(jī)采樣的任務(wù)可能會(huì)太難(或太容易),無法對(duì)智能體的學(xué)習(xí)進(jìn)度有所幫助。

        相反,研究人員使用自動(dòng)化的方法在智能體能力的前沿選擇相對(duì)「有趣 」(interesting)的任務(wù),類似于人類認(rèn)知發(fā)展中的「近側(cè)發(fā)展區(qū)間」(zone of proximal development)。

        具體方法為對(duì)現(xiàn)有技術(shù)中的no-op filtering和prioritised level replay(PLR)進(jìn)行擴(kuò)展,能夠極大提升智能體的性能和采樣效率,最終成為了一個(gè)新興的課程,能夠隨著時(shí)間的推移選擇越來越復(fù)雜的任務(wù)。

        4. RL智能體

        學(xué)習(xí)算法

        RL算法選擇Mueslie,輸入為一個(gè)歷史相關(guān)的編碼(history-dependent encoding),輸出為RNN或Transformer,AdA學(xué)習(xí)一個(gè)序列模型(LSTM)對(duì)后續(xù)多步預(yù)測(cè)價(jià)值、行動(dòng)分布和獎(jiǎng)勵(lì)。


        記憶架構(gòu)

        在每個(gè)時(shí)間步,將像素觀察、目標(biāo)、手、試驗(yàn)和時(shí)間信息、生成規(guī)則、之前的行動(dòng)和獎(jiǎng)勵(lì)嵌入化并合并為一個(gè)向量。

        這些觀察嵌入順序輸入到Transformer-XL中,其輸出嵌入輸入到MLP價(jià)值頭、MLP策略頭和Muesli LSTM模型步、


        不止few-shot

        通過對(duì)Transformer-XL架構(gòu)做了一個(gè)簡單的修改,就可以在不增加計(jì)算成本的情況下增加有效的記憶長度。

        由于在視覺RL環(huán)境中的觀察往往與時(shí)間高度相關(guān),所以研究人員提出對(duì)序列進(jìn)行子采樣。為了確保在子采樣點(diǎn)之間的觀察仍然可以被關(guān)注到,使用一個(gè)RNN對(duì)整個(gè)軌跡進(jìn)行編碼,可以總結(jié)每一步的最近歷史。

        結(jié)果表明,額外的RNN編碼并不影響模型中Transformer-XL變體的性能,但能夠保持更遠(yuǎn)的記憶。

        5. 蒸餾

        對(duì)于訓(xùn)練的前40億步,研究人員使用一個(gè)額外的蒸餾損失用預(yù)訓(xùn)練教師模型的策略來指導(dǎo)AdA的學(xué)習(xí),整個(gè)過程也稱之為kickstarting

        教師模型通過強(qiáng)化學(xué)習(xí)從頭開始進(jìn)行預(yù)訓(xùn)練,使用與AdA相同的訓(xùn)練程序和超參數(shù),但教師模型沒有初始蒸餾,并且具有較小的模型規(guī)模:教師模型只有2300萬Transformer參數(shù),而多智能體AdA擁有2.65億參數(shù)。

        在蒸餾過程中,AdA根據(jù)自己的策略行動(dòng),教師模型根據(jù)AdA觀察到的軌跡提供目標(biāo)Logits;使用蒸餾可以攤銷昂貴的初始訓(xùn)練期,并使智能體能夠消除在訓(xùn)練的初始階段學(xué)到的有害表征。

        然后將蒸餾損失與Muesli結(jié)合起來,最小化模型預(yù)測(cè)的所有行動(dòng)概率與教師策略在相應(yīng)時(shí)間段預(yù)測(cè)的行動(dòng)概率之間的KL-散度。


        研究人員還發(fā)現(xiàn)了一個(gè)有用的小操作,可以在蒸餾期間添加一個(gè)額外的L2正則化項(xiàng)。

        參考資料:

        https://arxiv.org/abs/2301.07608