中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 何愷明團(tuán)隊(duì)新作劍指AIGC!只需一個(gè)trick,CLIP訓(xùn)練速度快3.7倍

        更新時(shí)間:2022-12-03 16:05:38作者:智慧百科

        何愷明團(tuán)隊(duì)新作劍指AIGC!只需一個(gè)trick,CLIP訓(xùn)練速度快3.7倍

        楊凈 豐色 發(fā)自 凹非寺
        量子位 | 公眾號(hào) QbitAI

        何愷明團(tuán)隊(duì)又上新了。

        這次,他們的成果圍繞當(dāng)下最火的AIGC背后的CLIP展開(kāi)。

        ——只在該模型的極簡(jiǎn)結(jié)構(gòu)上,施加了一個(gè)簡(jiǎn)單的mask,就讓新模型的速度快了3.7倍。

        同時(shí),性能還可以做到不降反升。


        團(tuán)隊(duì)表示,希望他們的工作能幫助未來(lái)視覺(jué)語(yǔ)言模型實(shí)現(xiàn)規(guī)模化。

        這波,讓大家直呼:不愧是何愷明,還是熟悉的味道啊~

        是的,還是“大道至簡(jiǎn)”的feel。

        就連論文也一如既往,短短12頁(yè),一行公式也沒(méi)有。

        一起來(lái)拜讀吧。

        引入類似MAE的mask

        本文提出了一個(gè)用來(lái)訓(xùn)練CLIP的快速、簡(jiǎn)單且有效的方法FLIP。

        Fast Language-Image Pre-training(快速文本-圖像預(yù)訓(xùn)練方法),也是很直接了。

        簡(jiǎn)單來(lái)說(shuō),就是基于原有的CLIP架構(gòu),對(duì)輸入圖像的那一側(cè), 隨機(jī)掩蔽圖像區(qū)塊,之后只對(duì)可見(jiàn)區(qū)塊編碼。


        原有CLIP架構(gòu)

        更直白來(lái)講,對(duì)CLIP架構(gòu)引入類似于MAE的思路,于是FLIP架構(gòu)也就變成了這樣。


        這樣一來(lái),既可以減少計(jì)算量,提高訓(xùn)練效率,相同的時(shí)間可以進(jìn)行更多圖像-文本樣本學(xué)習(xí);每次迭代還能可對(duì)比更多樣本,但保持相似的內(nèi)存占用率。

        具體來(lái)說(shuō),本文采用的是ViT作為圖像編碼器。

        圖像首先被劃分為一個(gè)不重疊的網(wǎng)格,并隨機(jī)地遮蔽掉大部分的區(qū)塊。本文采用的遮蔽比例為50%、75%。隨后ViT只對(duì)可區(qū)塊編碼,時(shí)間復(fù)雜度相應(yīng)降低為原來(lái)的二分之一(50%),或者四分之一(75%)。

        同樣的方式還可以用到文本遮蔽上。不過(guò)研究者認(rèn)為由于文本編碼器比較小,帶來(lái)的加速效果并不能帶來(lái)整體的增益。

        不過(guò)跟MAE不同的是,此次FLIP并沒(méi)有對(duì)被遮蔽的圖像內(nèi)容重建,也沒(méi)有解碼器。


        MAE架構(gòu)

        因?yàn)樗麄儼l(fā)現(xiàn),放棄解碼器和重建可以產(chǎn)生更好的速度。雖然編碼器在被遮蔽的圖像上進(jìn)行了預(yù)訓(xùn)練,但它可以直接應(yīng)用在完整圖像上。

        相同性能,速度為3.7x

        總的來(lái)看,采用了mask機(jī)制的FLIP相比CLIP,在準(zhǔn)確性和訓(xùn)練時(shí)間上取得了平衡,即性能在訓(xùn)練時(shí)間大幅減少的情況下,不降反升。

        ——尤其是在mask程度高達(dá)50%和75%的情況下。

        其中,當(dāng)mask=75%時(shí),F(xiàn)LIP達(dá)到和基線模型CLIP相同的性能時(shí),訓(xùn)練速度是它的3.7x。

        這也就意味著,CLIP花費(fèi)大約2500 TPU-days訓(xùn)練完成時(shí),F(xiàn)LIP可以大約節(jié)省1800 TPU-days。


        這一結(jié)果在ImageNet-1K驗(yàn)證集上的Zero-shot transfer任務(wù)中得出,每個(gè)不同mask比例的模型都在LAION-400M上進(jìn)行了6.4、12.8或32個(gè)epoch的訓(xùn)練,包含了4億個(gè)圖像-文本對(duì)。

        接著,采用64k batch,50% mask比和unmasked微調(diào)的FLIP,在ImageNet-1K分類數(shù)據(jù)集上的三個(gè)主要指標(biāo)上也獲得了比CLIP更好的性能。


        注:是比他們復(fù)現(xiàn)出來(lái)的CLIP更好,和原始CLIP還差一點(diǎn),當(dāng)然,兩者數(shù)據(jù)集不一樣。

        而在基于各類數(shù)據(jù)集的大量下游任務(wù)中(包括零樣本分類、文字/圖片檢索等),F(xiàn)LIP同樣表現(xiàn)出了優(yōu)勢(shì),且基本全線碾壓了CLIP(見(jiàn)綠色高亮,幾乎點(diǎn)滿)。

        最后,對(duì)于FLIP模型的scale up也是一大看點(diǎn),結(jié)果可圈可點(diǎn)。

        可以看到,當(dāng)增加FLIP的模型大小和數(shù)據(jù)規(guī)模時(shí),F(xiàn)LIP繼續(xù)漲點(diǎn),尤其增加模型大小時(shí)最為明顯(最左)。不過(guò)單純?cè)黾佑?xùn)練時(shí)長(zhǎng)基本沒(méi)用(最右)。

        從下表我們還能看出,模型大小和數(shù)據(jù)規(guī)模一起增加,效果又上了一個(gè)新高度。證明大模型+大數(shù)據(jù)就是好使。

        何愷明擔(dān)任通訊作者

        FLIP一共5位作者。


        3位共同一作,都是FAIR研究工程師。其中:

        Li Yanghao,本碩畢業(yè)于北京大學(xué)計(jì)算機(jī)科學(xué)專業(yè),已發(fā)表多篇頂會(huì);

        Fan Haoqi,畢業(yè)于CMU機(jī)器人學(xué)院;

        Hu Ronghang,本科畢業(yè)于清華,2020年博士畢業(yè)于UC伯克利。

        通訊作者有兩位:

        何愷明和他的同事Christoph Feichtenhofer,擁有同等指導(dǎo)貢獻(xiàn)。


        One More Thing

        值得一提的是,有細(xì)心的網(wǎng)友統(tǒng)計(jì)了近三年CVPR引用量最高的論文(截至2022年11月),分別是Moco(2020)、SimSiam(2021)、MAE(2022)。


        而這三篇文章唯一的共同作者就是何愷明,其中兩篇還是一作,且都是與自監(jiān)督學(xué)習(xí)相關(guān)。據(jù)谷歌學(xué)術(shù)統(tǒng)計(jì),目前他們的引用量分別為5224、1374、834。

        愷明大神還是一如既往地穩(wěn)定發(fā)揮呀~

        對(duì)于他們團(tuán)隊(duì)的最新力作,你怎么看?

        比如,為什么對(duì)圖像patch進(jìn)行了隨機(jī)mask,反而讓模型性能不降反升呢?

        論文鏈接:
        https://arxiv.org/abs/2212.00794
        參考鏈接:
        [1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
        [2]https://kaiminghe.github.io/
        [3]https://www.zhihu.com/question/570153050/answer/2784717398

        本文標(biāo)簽: 何愷明  速度  編碼器  clip  科學(xué)家