李飛飛團(tuán)隊(duì)將ViT用在機(jī)器人身上，規(guī)劃推理最高提速512倍

更新時(shí)間：2022-06-26 10:37:04作者：未知

本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容，未經(jīng)賬號(hào)授權(quán)，禁止隨意轉(zhuǎn)載。
楊凈發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

人類的預(yù)測(cè)能力+ViT，會(huì)產(chǎn)生什么樣的化學(xué)反應(yīng)？

會(huì)讓機(jī)器人的行動(dòng)規(guī)劃能力又快又準(zhǔn)。

這是李飛飛團(tuán)隊(duì)的最新研究——MaskViT，通過(guò)MVM，掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練，從而建立視頻預(yù)測(cè)模型。

結(jié)果顯示，MaskViT不僅能生成256*256視頻，還可以讓機(jī)器人行動(dòng)規(guī)劃的推理速度最高提高了512倍。

來(lái)看看這是項(xiàng)什么樣的研究？

從人類身上找靈感

神經(jīng)科學(xué)領(lǐng)域的研究表明，人類的認(rèn)知、感知能力是有一種預(yù)測(cè)機(jī)制來(lái)支持的。

這種對(duì)世界的預(yù)測(cè)模型，可以用來(lái)模擬、評(píng)估和選擇不同的可能行動(dòng)。

對(duì)人類來(lái)說(shuō)，這一過(guò)程是快速和準(zhǔn)確的。

如果能賦予機(jī)器人類似的預(yù)測(cè)能力。那么他們就可以在復(fù)雜的動(dòng)態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。

比如，通過(guò)視覺模型來(lái)預(yù)測(cè)控制，也許就是一種方式，但也對(duì)算力和準(zhǔn)確性提出了更高的要求。

于是，李飛飛團(tuán)隊(duì)就想到了最近諸多進(jìn)展的ViT架構(gòu)，以及以何愷明MAE為代表的基于MVM，Masked Visual Modeling這一自監(jiān)督預(yù)訓(xùn)練表征。

但具體要操作起來(lái)，仍有不少的技術(shù)挑戰(zhàn)。

一方面，全局注意力機(jī)制的復(fù)雜度與輸入序列長(zhǎng)度的平方呈正比，導(dǎo)致視頻處理成本過(guò)高。

另一方面，視頻預(yù)測(cè)任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實(shí)際測(cè)試時(shí)，模型必須從頭預(yù)測(cè)完整的未來(lái)幀序列，導(dǎo)致視頻預(yù)測(cè)質(zhì)量不好。

基于這樣的背景，李飛飛團(tuán)隊(duì)提出了MaskViT——通過(guò)掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練，從而建立視頻預(yù)測(cè)模型。

具體有兩種設(shè)計(jì)決策。

首先，為了提高記憶和訓(xùn)練效率，使用了兩種類型的窗口注意力：空間注意力和時(shí)空注意力。

其次，訓(xùn)練過(guò)程中掩碼的token比例是可變的。

在推理階段，視頻是通過(guò)迭代細(xì)化生成的，其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在三個(gè)不同數(shù)據(jù)集，以及四個(gè)不同指標(biāo)來(lái)評(píng)估了MaskViT。

結(jié)果顯示，跟以往先進(jìn)的方法比較，MaskViT都表現(xiàn)出了更好的性能，可生成分辨率達(dá)256 × 256的視頻。

還在BAIR進(jìn)行了消融實(shí)驗(yàn)。

隨后，團(tuán)隊(duì)還展示了真實(shí)機(jī)器人使用MaskViT進(jìn)行實(shí)時(shí)規(guī)劃的效果。

推理速度最高可提升512倍。

研究人員表示，本次工作表明，可以通過(guò)最小的領(lǐng)域知識(shí)，利用掩碼視覺建模的一般框架，賦予像智能體強(qiáng)大的預(yù)測(cè)模型。

但同時(shí)表示，也具有一定的局限性。

比如在每幀量化時(shí)會(huì)出現(xiàn)閃爍偽影，尤其是在RoboNet這種有靜態(tài)背景的視頻中。

還有如果要擴(kuò)大視頻預(yù)測(cè)的規(guī)模，也仍然具有挑戰(zhàn)性，特別是那種有大量攝像機(jī)運(yùn)動(dòng)的場(chǎng)景。

未來(lái)，他們將探索把這一視頻預(yù)測(cè)方法整合到更復(fù)雜的規(guī)劃算法中。

值得一提的是，在今年5月，何愷明團(tuán)隊(duì)曾提出過(guò)視頻版MAE，并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。

論文鏈接：
https://arxiv.org/abs/2206.11894
項(xiàng)目鏈接：
https://maskedvit.github.io/
何愷明論文：
https://arxiv.org/abs/2205.09113

本文標(biāo)簽：李飛飛機(jī)器人推理量子算法

上一篇：面世一年，Windows 11“靜悄悄”？

下一篇：果麥文化：在天貓、京東、當(dāng)當(dāng)大概要付出30%的渠道費(fèi)用，現(xiàn)在東方甄選只是20%

中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕