2023成都積分入學(xué)什么時候開始申請
2023-01-31
更新時間:2022-11-23 10:05:59作者:智慧百科
·“單從技術(shù)角度而言,AIGC(AI生成內(nèi)容)所具備的能力還不夠全面,現(xiàn)在只是從文字生成圖像,但事實(shí)上我們想要的可能更多,比如對已經(jīng)生成的圖像進(jìn)行交互式編輯。而對專業(yè)領(lǐng)域如服裝設(shè)計(jì),則需要非常特定的模型。這個故事才剛剛開始。”IDEA研究院講席科學(xué)家、“蓋亞計(jì)劃”負(fù)責(zé)人張家興在采訪中表示。
首個中文Stable Diffusion模型“太乙”根據(jù)油畫“君不見黃河之水天上來”生成的圖片。
11月22日,在深圳舉行的2022 IDEA大會上,粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA)創(chuàng)院理事長沈向洋在發(fā)布會上分享了他對前沿技術(shù)的看法以及對未來趨勢的判斷,其中他談到了當(dāng)下AI發(fā)展的技術(shù)趨勢,提到風(fēng)頭正勁的AIGC,將其概括為“從一圖勝千言到一言勝千圖”。沈向洋認(rèn)為,伴隨算力和數(shù)據(jù)的數(shù)量級增長,以及大模型持續(xù)迭代, AIGC領(lǐng)域?qū)l(fā)生顛覆式變化,如何用好AI數(shù)字生產(chǎn)力,是各類企業(yè)和創(chuàng)業(yè)團(tuán)隊(duì)接下來要思考的問題。
IDEA研究院公布了專注于AIGC領(lǐng)域的項(xiàng)目——“蓋亞計(jì)劃”,這一項(xiàng)目已于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,旨在更好地助力中國AIGC文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展。
DALL.E(基于GPT-3開發(fā)的一種新型神經(jīng)網(wǎng)絡(luò))根據(jù)語言描述生成的牛油果形狀扶手椅。
每個人都是達(dá)芬奇
AIGC(AI-Generated Content,AI生成內(nèi)容),即使用語言描述就可以通過人工智能自動生成生動的圖片甚至視頻,比如OpenAI的圖像生成模型DALL-E。
“人工智能大模型發(fā)展的規(guī)模和速度,都到了今天我們不可忽視的地步。最新的技術(shù)可以通過一句話,創(chuàng)造出數(shù)不清的圖像,每張都有自己的特點(diǎn)??芍^從一圖勝千言,到了一言勝千圖?!鄙蛳蜓笤贗DEA大會上說, “我從事計(jì)算機(jī)視覺研究這么多年,如果三五年前告訴我能做出這樣的效果我是不會相信的?!?br/>沈向洋談到,人工智能技術(shù)將在文本生成圖像等領(lǐng)域開啟新的技術(shù)趨勢。今年發(fā)布的DALL-E 2、近期備受熱議的Stable Diffusion等模型,為人們展現(xiàn)了AI數(shù)字生產(chǎn)力在圖像生成乃至藝術(shù)創(chuàng)作上的強(qiáng)大力量。
“AIGC最重要的是,可以幫助每個人在有藝術(shù)創(chuàng)作沖動時做一些事情?!鄙蛳蜓笳f,“有人研究過歷史上為什么有些藝術(shù)家一輩子只能畫幾張畫,而其他藝術(shù)家可以畫很多畫,這其中最著名的就是達(dá)芬奇。藝術(shù)史研究者專?研究后發(fā)現(xiàn):達(dá)芬奇那么多的作品不是他一個人畫的,而是帶了很多徒弟。”而到了現(xiàn)在,“每個人都是‘達(dá)芬奇’,人工智能就是每個人的小徒弟?!?br/>沈向洋認(rèn)為,目前AIGC能實(shí)現(xiàn)這樣的效果有三個技術(shù)基礎(chǔ):巨大的數(shù)據(jù)量、龐大的算力和新的深度學(xué)習(xí)算法。“這個結(jié)果代表了今天人工智能能夠達(dá)到的高度和方向?!?br/>“這個故事才剛剛開始”
這個突破是如何實(shí)現(xiàn)的呢?IDEA研究院講席科學(xué)家、“蓋亞計(jì)劃”負(fù)責(zé)人張家興對澎湃科技(www.thepaper.cn)表示,從整個AI的發(fā)展歷程來說,“此前我們更多在研究AI如何分析和理解,比如圖像識別、人臉識別、文本情感分析等。然后這個技術(shù)趨于成熟,這時候大家亟待有一個新的AI能力出現(xiàn)?!?br/>在AIGC的探索過程中有一個重要的思路轉(zhuǎn)換:不是用AI理解內(nèi)容,而是用AI來直接生成內(nèi)容。“原來的技術(shù)趨勢,如卷積神經(jīng)網(wǎng)絡(luò)從輸入基本圖像到輸出我們想要的結(jié)果,過程就是對原始輸入有越來越抽象的理解。而當(dāng)下的生成,實(shí)際上是一個反向的過程——從一張完全模糊的圖像開始想象,最終呈現(xiàn)清晰的圖像?!睆埣遗d對澎湃科技解答道,這個過程大概從2015年左右開始,嘗試了六七年的時間后,終于現(xiàn)在有一些模型上的進(jìn)步,如Diffusion模型,于是才有了這樣一個大的突破。
Diffusion模型通過定義一個不斷加噪聲的前向過程來將圖片逐步變?yōu)楦咚乖肼?,再通過定義一個逆向過程將高斯噪聲逐步去噪變?yōu)榍逦鷪D片以得到采樣。
Diffusion模型在使用上一個非常大的限制就是采樣速度,模型采樣需要從純噪聲圖片出發(fā),一步一步不斷地去噪,最終得到清晰的圖片。據(jù)11月發(fā)布的最新研究,清華大學(xué)計(jì)算機(jī)系教授朱軍帶領(lǐng)的TSAIL團(tuán)隊(duì)將擴(kuò)散模型的快速采樣算法提升到了極致:無需額外訓(xùn)練,僅需10到25步就可以獲得極高質(zhì)量的采樣,采樣8張圖片的時間從原來的8秒鐘被縮短至4秒鐘。
除此之外,對于當(dāng)下存在的問題,張家興表示,“單從技術(shù)角度而言,AIGC所具備的能力還不夠全面,現(xiàn)在只是從文字生成圖像,但事實(shí)上我們想要的可能更多,比如對已經(jīng)生成的圖像進(jìn)行交互式編輯。除此之外,對專業(yè)領(lǐng)域如服裝設(shè)計(jì),那就需要非常特定的模型。”
“這個故事才剛剛開始。”張家興說。
“中文AIGC時代”
目前在國內(nèi),大部分團(tuán)隊(duì)主要基于翻譯API+英文Stable Diffusion模型進(jìn)行開發(fā),Stable Diffusion被稱為當(dāng)下最強(qiáng)的AI圖像生成器。然而,由于中英文之間的文化差異,在遇到中文獨(dú)特的敘事和表達(dá)時,這種模型就很難正確匹配圖片內(nèi)容。
為了解決這個問題,“蓋亞計(jì)劃”近期開源了首個中文Stable Diffusion模型“太乙”?!拔覀冞@個項(xiàng)目的開源也標(biāo)志著中文AIGC時代的來臨?!鄙蛳蜓笳f。
“蓋亞計(jì)劃”由IDEA研究院認(rèn)知計(jì)算與自然語言研究中心發(fā)起,致力于在預(yù)訓(xùn)練大模型時代建設(shè)認(rèn)知智能的基礎(chǔ)設(shè)施,是國內(nèi)目前唯一以開源為目的的技術(shù)團(tuán)隊(duì)。
為什么如此看重開源?和AIGC本身的技術(shù)門檻有關(guān)。
“AIGC一定要依賴于預(yù)訓(xùn)練模型,而預(yù)訓(xùn)練模型的訓(xùn)練本身就是一個巨大的技術(shù)門檻。因?yàn)橐氲玫揭粋€真正高質(zhì)量的AI模型,需要聚集大量的算力、數(shù)據(jù)以及在訓(xùn)練模型方面有經(jīng)驗(yàn)的人才。從這一點(diǎn)來說,目前可以聚集這樣資源的團(tuán)隊(duì)并不多。整個AIGC的預(yù)訓(xùn)練模型生產(chǎn)也呈現(xiàn)高成本化的狀態(tài)?!睆埣遗d對澎湃科技表示。
而開源就意味著,下游的所有公司都可以免費(fèi)使用這個模型完成其產(chǎn)品創(chuàng)新?!斑@件事情非常重要。其實(shí)這次國際上為什么AIGC會這樣興起?這跟Stability AI開源了其模型非常相關(guān)。所以我們希望通過開源讓整個產(chǎn)業(yè)成長?!睆埣遗d介紹稱這是IDEA研究院的一個長期目標(biāo)。
張家興提到的Stability AI在10月宣布獲得了1.01億美元超額融資,此輪融資后,Stability AI估值到達(dá)10億美元,成為新晉獨(dú)角獸。其資金將用于開發(fā)圖、文、視頻、音頻(音樂生成算法和工具Dance Diffusion也已曝光)和3D等多模態(tài)開源模型。
IDEA大會由IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士、前微軟公司全球執(zhí)行副總裁沈向洋發(fā)起,致力在粵港澳大灣區(qū)搭建一個分享人工智能技術(shù)和凝聚數(shù)字產(chǎn)業(yè)力量的國際化交流平臺,發(fā)布年度科技趨勢與創(chuàng)新產(chǎn)品,將前沿對話落實(shí)到數(shù)字經(jīng)濟(jì)時代的實(shí)踐中。