2023成都積分入學(xué)什么時(shí)候開始申請(qǐng)
2023-01-31
更新時(shí)間:2022-06-26 10:37:04作者:未知
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
楊凈 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
人類的預(yù)測(cè)能力+ViT,會(huì)產(chǎn)生什么樣的化學(xué)反應(yīng)?
會(huì)讓機(jī)器人的行動(dòng)規(guī)劃能力又快又準(zhǔn)。
這是李飛飛團(tuán)隊(duì)的最新研究——MaskViT,通過(guò)MVM,掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測(cè)模型。
結(jié)果顯示,MaskViT不僅能生成256*256視頻,還可以讓機(jī)器人行動(dòng)規(guī)劃的推理速度最高提高了512倍。
來(lái)看看這是項(xiàng)什么樣的研究?
從人類身上找靈感
神經(jīng)科學(xué)領(lǐng)域的研究表明,人類的認(rèn)知、感知能力是有一種預(yù)測(cè)機(jī)制來(lái)支持的。
這種對(duì)世界的預(yù)測(cè)模型,可以用來(lái)模擬、評(píng)估和選擇不同的可能行動(dòng)。
對(duì)人類來(lái)說(shuō),這一過(guò)程是快速和準(zhǔn)確的。
如果能賦予機(jī)器人類似的預(yù)測(cè)能力。那么他們就可以在復(fù)雜的動(dòng)態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。
比如,通過(guò)視覺模型來(lái)預(yù)測(cè)控制,也許就是一種方式,但也對(duì)算力和準(zhǔn)確性提出了更高的要求。
于是,李飛飛團(tuán)隊(duì)就想到了最近諸多進(jìn)展的ViT架構(gòu),以及以何愷明MAE為代表的基于MVM,Masked Visual Modeling這一自監(jiān)督預(yù)訓(xùn)練表征。
但具體要操作起來(lái),仍有不少的技術(shù)挑戰(zhàn)。
一方面,全局注意力機(jī)制的復(fù)雜度與輸入序列長(zhǎng)度的平方呈正比,導(dǎo)致視頻處理成本過(guò)高。
另一方面,視頻預(yù)測(cè)任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實(shí)際測(cè)試時(shí),模型必須從頭預(yù)測(cè)完整的未來(lái)幀序列,導(dǎo)致視頻預(yù)測(cè)質(zhì)量不好。
基于這樣的背景,李飛飛團(tuán)隊(duì)提出了MaskViT——通過(guò)掩碼視覺建模對(duì)Transformer進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測(cè)模型。
具體有兩種設(shè)計(jì)決策。
首先,為了提高記憶和訓(xùn)練效率,使用了兩種類型的窗口注意力:空間注意力和時(shí)空注意力。
其次,訓(xùn)練過(guò)程中掩碼的token比例是可變的。
在推理階段,視頻是通過(guò)迭代細(xì)化生成的,其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在三個(gè)不同數(shù)據(jù)集,以及四個(gè)不同指標(biāo)來(lái)評(píng)估了MaskViT。
結(jié)果顯示,跟以往先進(jìn)的方法比較,MaskViT都表現(xiàn)出了更好的性能,可生成分辨率達(dá)256 × 256的視頻。
還在BAIR進(jìn)行了消融實(shí)驗(yàn)。
隨后,團(tuán)隊(duì)還展示了真實(shí)機(jī)器人使用MaskViT進(jìn)行實(shí)時(shí)規(guī)劃的效果。
推理速度最高可提升512倍。
研究人員表示,本次工作表明,可以通過(guò)最小的領(lǐng)域知識(shí),利用掩碼視覺建模的一般框架,賦予像智能體強(qiáng)大的預(yù)測(cè)模型。
但同時(shí)表示,也具有一定的局限性。
比如在每幀量化時(shí)會(huì)出現(xiàn)閃爍偽影,尤其是在RoboNet這種有靜態(tài)背景的視頻中。
還有如果要擴(kuò)大視頻預(yù)測(cè)的規(guī)模,也仍然具有挑戰(zhàn)性,特別是那種有大量攝像機(jī)運(yùn)動(dòng)的場(chǎng)景。
未來(lái),他們將探索把這一視頻預(yù)測(cè)方法整合到更復(fù)雜的規(guī)劃算法中。
值得一提的是,在今年5月,何愷明團(tuán)隊(duì)曾提出過(guò)視頻版MAE,并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。
論文鏈接:
https://arxiv.org/abs/2206.11894
項(xiàng)目鏈接:
https://maskedvit.github.io/
何愷明論文:
https://arxiv.org/abs/2205.09113