中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 李飛飛團(tuán)隊(duì)將ViT用在機(jī)器人身上,規(guī)劃推理最高提速512倍

        更新時(shí)間:2022-06-26 10:37:04作者:未知

        李飛飛團(tuán)隊(duì)將ViT用在機(jī)器人身上,規(guī)劃推理最高提速512倍

        本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
        楊凈 發(fā)自 凹非寺
        量子位 | 公眾號(hào) QbitAI

        人類的預(yù)測(cè)能力+ViT,會(huì)產(chǎn)生什么樣的化學(xué)反應(yīng)?

        會(huì)讓機(jī)器人的行動(dòng)規(guī)劃能力又快又準(zhǔn)。


        這是李飛飛團(tuán)隊(duì)的最新研究——MaskViT,通過(guò)MVM,掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測(cè)模型。


        結(jié)果顯示,MaskViT不僅能生成256*256視頻,還可以讓機(jī)器人行動(dòng)規(guī)劃的推理速度最高提高了512倍。


        來(lái)看看這是項(xiàng)什么樣的研究?

        從人類身上找靈感

        神經(jīng)科學(xué)領(lǐng)域的研究表明,人類的認(rèn)知、感知能力是有一種預(yù)測(cè)機(jī)制來(lái)支持的。

        這種對(duì)世界的預(yù)測(cè)模型,可以用來(lái)模擬、評(píng)估和選擇不同的可能行動(dòng)。

        對(duì)人類來(lái)說(shuō),這一過(guò)程是快速和準(zhǔn)確的。

        如果能賦予機(jī)器人類似的預(yù)測(cè)能力。那么他們就可以在復(fù)雜的動(dòng)態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。

        比如,通過(guò)視覺模型來(lái)預(yù)測(cè)控制,也許就是一種方式,但也對(duì)算力和準(zhǔn)確性提出了更高的要求。

        于是,李飛飛團(tuán)隊(duì)就想到了最近諸多進(jìn)展的ViT架構(gòu),以及以何愷明MAE為代表的基于MVM,Masked Visual Modeling這一自監(jiān)督預(yù)訓(xùn)練表征。

        但具體要操作起來(lái),仍有不少的技術(shù)挑戰(zhàn)。

        一方面,全局注意力機(jī)制的復(fù)雜度與輸入序列長(zhǎng)度的平方呈正比,導(dǎo)致視頻處理成本過(guò)高。

        另一方面,視頻預(yù)測(cè)任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實(shí)際測(cè)試時(shí),模型必須從頭預(yù)測(cè)完整的未來(lái)幀序列,導(dǎo)致視頻預(yù)測(cè)質(zhì)量不好。

        基于這樣的背景,李飛飛團(tuán)隊(duì)提出了MaskViT——通過(guò)掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測(cè)模型。


        具體有兩種設(shè)計(jì)決策。

        首先,為了提高記憶和訓(xùn)練效率,使用了兩種類型的窗口注意力:空間注意力和時(shí)空注意力。

        其次,訓(xùn)練過(guò)程中掩碼的token比例是可變的。

        在推理階段,視頻是通過(guò)迭代細(xì)化生成的,其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。


        實(shí)驗(yàn)結(jié)果

        研究團(tuán)隊(duì)在三個(gè)不同數(shù)據(jù)集,以及四個(gè)不同指標(biāo)來(lái)評(píng)估了MaskViT。

        結(jié)果顯示,跟以往先進(jìn)的方法比較,MaskViT都表現(xiàn)出了更好的性能,可生成分辨率達(dá)256 × 256的視頻。


        還在BAIR進(jìn)行了消融實(shí)驗(yàn)。


        隨后,團(tuán)隊(duì)還展示了真實(shí)機(jī)器人使用MaskViT進(jìn)行實(shí)時(shí)規(guī)劃的效果。


        推理速度最高可提升512倍。


        研究人員表示,本次工作表明,可以通過(guò)最小的領(lǐng)域知識(shí),利用掩碼視覺建模的一般框架,賦予像智能體強(qiáng)大的預(yù)測(cè)模型。

        但同時(shí)表示,也具有一定的局限性。

        比如在每幀量化時(shí)會(huì)出現(xiàn)閃爍偽影,尤其是在RoboNet這種有靜態(tài)背景的視頻中。


        還有如果要擴(kuò)大視頻預(yù)測(cè)的規(guī)模,也仍然具有挑戰(zhàn)性,特別是那種有大量攝像機(jī)運(yùn)動(dòng)的場(chǎng)景。

        未來(lái),他們將探索把這一視頻預(yù)測(cè)方法整合到更復(fù)雜的規(guī)劃算法中。

        值得一提的是,在今年5月,何愷明團(tuán)隊(duì)曾提出過(guò)視頻版MAE,并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。


        論文鏈接:
        https://arxiv.org/abs/2206.11894
        項(xiàng)目鏈接:
        https://maskedvit.github.io/
        何愷明論文:
        https://arxiv.org/abs/2205.09113

        本文標(biāo)簽: 李飛飛  機(jī)器人  推理  量子  算法