中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 這段視頻火爆外網(wǎng),谷歌把AI視頻造假搞得太真太簡單了

        更新時間:2023-01-16 18:05:16作者:智慧百科

        這段視頻火爆外網(wǎng),谷歌把AI視頻造假搞得太真太簡單了

        金磊 Pine 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

        家人們,AI做視頻這事今天又被推向了輿論的風(fēng)口浪尖。

        起因是有人在網(wǎng)上發(fā)布了這么一只小企鵝的視頻:



        而這個近50秒視頻的誕生,靠的僅僅是6句話!



        陸陸續(xù)續(xù)的,網(wǎng)友們還在發(fā)布著這個AI的其它杰作:



        這次給它投喂的提示詞也是極短,僅4行



        如此“所寫即所得”、絲滑連貫的視頻生成方式,也是令不少網(wǎng)友發(fā)出感慨:



        甚至還有人開始“拉仇恨”,說AI正在用各種方式摧毀行業(yè)……



        然后就有很多人發(fā)問了:“這又是哪家新搞的AI哇?”



        不過眼尖的網(wǎng)友發(fā)現(xiàn)它其實是一位“老朋友”了——

        谷歌去年10月份便發(fā)布的一個文本轉(zhuǎn)視頻(Text-to-Video)模型:Phenaki

        只需一段提示詞,分分鐘可以生成長達(dá)兩分鐘的視頻。

        而相比Phenaki剛發(fā)布的時候,谷歌又來了一波上新操作。

        那么我們現(xiàn)在就來一同看看這些新視頻吧~

        打字就能生成的視頻

        與以往AI生成的視頻不同,Phenaki最大的特點便是有故事、有長度

        例如,我們再給這么一段場景描述:

        想必不少友友們在讀這段文字過程中,腦中已經(jīng)浮現(xiàn)相應(yīng)的畫面了。

        接下來,我們一起看看Phenaki生成的效果如何:



        是不是和你腦補出來的畫面一致呢?

        總體來說,這個AI即便面對這種腦洞大開的場景提示詞,也是做到了無縫銜接的轉(zhuǎn)場。

        也難怪網(wǎng)友們看完這段視頻后驚呼“(科技)發(fā)展得真快啊”。



        而對于篇幅稍短的提示詞,Phenaki就更不在話下了。

        例如,給Phenaki投喂這樣一段文字:



        沒看夠?那再來一段,這次換個主角:



        而在谷歌更早發(fā)布Phenaki之際,還展示了向Phenaki輸入一個初始幀以及一個提示詞,便可以生成一段視頻的能力。

        例如給定這樣一張靜態(tài)圖:



        然后再給它Phenaki簡單“投喂”一句:白貓用貓爪觸摸攝像機。效果就出來了:



        還是基于這張圖,把提示詞改成“一只白貓打哈欠”,效果就成這樣了:



        當(dāng)然,任意切換視頻整體風(fēng)格也是可以hold得住的:



        網(wǎng)友:視頻行業(yè)要被AI沖擊了嗎?

        但除了Phenaki之外,谷歌當(dāng)時還一道發(fā)布過Imagen Video,能夠生成1280*768分辨率、每秒24幀的高清視頻片段。

        它基于圖像生成SOTA模型Imagen,展示出了三種特別的能力:

        更早的,Meta也發(fā)布了Make-A-Video,不僅能夠通過文字轉(zhuǎn)換視頻,還能根據(jù)圖像生成視頻,比如:



        對于這如“雨后春筍”突然冒出的生成視頻模型,不免會讓有些人擔(dān)心:



        當(dāng)然也有人認(rèn)為現(xiàn)在時機還未到:



        不過已經(jīng)有網(wǎng)友在期待靠AI拿奧斯卡獎了:



        原理介紹

        再說回Phenaki,有不少網(wǎng)友都比較好奇它是如何通過文字生成這么絲滑的視頻的?

        簡單來說,Phenaki相較于以往的生成視頻模型,它更注重時間長度任意性連貫性。

        Phenaki之所以能夠生成任意時間長度的視頻,很大程度上要歸功于新的編碼器-解碼器架構(gòu):C-ViViT。

        它是ViViT的一個因果變體,能夠?qū)⒁曨l壓縮為離散嵌入。

        要知道,以往獲取視頻壓縮,要么就是編碼器不能及時壓縮視頻,導(dǎo)致最終生成的視頻過短,例如VQ-GAN,要么就是編碼器只支持固定視頻長度,最終生成視頻的長度不能任意調(diào)節(jié),例如VideoVQVAE。

        但C-ViViT就不一樣了,它可謂是兼顧了上面兩種架構(gòu)的優(yōu)點,能夠在時間和空間維度上壓縮視頻,并且在時間上保持自回歸的同時,還可以自回歸生成任意長度的視頻。



        C-ViViT可以使模型生成任意長度的視頻,那最終視頻的邏輯性又是怎么保證的呢?

        這就得靠Phenaki另外一個比較重要的部分:雙向Transformer。

        在這其中,為節(jié)省時間,采樣步驟是固定的,并且在處理文本提示的過程中,能同時預(yù)測不同的視頻token。

        這樣一來,結(jié)合前面提到的,C-ViViT能夠在時間和空間維度上壓縮視頻,壓縮出來的token是具有時間邏輯性的。

        也就是說,在這些token上經(jīng)過掩碼訓(xùn)練的Transformer也具備時間邏輯性,最終生成的視頻在連貫性自然也就有了保證。



        如果還想了解更多關(guān)于Phenaki的東西,可以戳這里查看。

        Phenaki:
        https://phenaki.github.io

        參考鏈接:
        [1] https://phenaki.video/
        [2] https://phenaki.research.google/
        [3] https://twitter.com/AiBreakfast/status/1614647018554822658
        [4] https://twitter.com/EvanKirstel/status/1614676882758275072


        本文標(biāo)簽: 谷歌  解碼器  鏡頭  編碼器  ai  攝像機