您現在的位置是:首頁 > 籃球

AI生成繪畫為什麼在2022年火了?

  • 由 投中網 發表于 籃球
  • 2022-12-31
簡介《麻省理工技術評論》9月釋出了一篇文章:數字藝術家 Greg Rutkowski 因為看到他的繪畫風格被AI影象生成平臺複製而不安,指向的正是剛釋出不久的Stable Diffusion——生成式AI從網上抓取資料來訓練自己的模型,有時會未

申中的這個名字怎麼樣

AI生成繪畫為什麼在2022年火了?

文丨劉燕秋

我輸入的關鍵詞是:冬日海面,鯨魚,甜甜圈,c4d渲染,裝飾管線。

十分鐘後,群裡的機器人給我發過來一張色彩瑰麗且頗具想象力的圖片:鯨魚從冬日微微冒煙的海面浮出,棕褐色的甜甜圈似海里巨大的岩石。

作為一個帶有獵奇心理的試用者,我很滿意。

老實說,我發出的指令只是一些我喜歡的東西構成的詞彙,我並沒有想過這些組合在一起會是什麼樣子,但僅靠文字描述,AI就幫我具體地描繪了一個理想世界。

這是最近火爆的AIGC概念的一次生動應用。

所謂AIGC(AI-generated content),按照中金7月釋出的研究,指的是一種透過AI技術來自動或輔助生成內容的生產方式。透過輸入指令,人類讓AI去完成冗雜的程式碼、繪圖、建模等任務,從而生成內容。

紅杉美國的兩位合夥人最近也在一篇題為《Generative AI: A Creative New World》的文章裡寫道:機器開始嘗試創造有意義和美麗的東西,這個新類別被稱為“生成式AI(Generative AI)”,這意味著機器正在生成新的東西,而不是分析已經存在的東西。

“人人都能成為創作者”,過去我們一再使用類似的話語,表達技術演進給內容生產帶來的變革。如果說短影片一類工具的出現降低了表達的門檻,那麼AI工具的應用無疑讓這句話更為貼近現實,其商業前景同樣廣闊。中關村大資料產業聯盟釋出的《中國AI數字商業展望2021-2025》報告預測,到2025年,中國AI數字商業核心支柱產業鏈規模將達到1853億元,其中AI數字商業內容產業規模將達到495億元。

海外,人工智慧藝術家和藝術品迅速湧現。谷歌、微軟、Meta等科技公司扎堆AI繪畫,Disco Diffusion、DALL-E 2、Stable Diffusion、Midjourney、Make-A-Scene、NUWA等平臺正在重新定義設計的想象力。

國內也已經暗流洶湧。在今年7月的百度世界大會上,AI用時1秒就復原了《富春山居圖》殘卷,應用的正是百度開發的飛槳和文心大模型技術。以TIAMAT為首的一些脫胎於中文環境的生成式AI生成內容平臺也轉入爆發式增長。

每一波小趨勢的出現無一例外總能牽動投資人的情緒。“今年七八月份開始,這個賽道慢慢火起來了,從9月份到現在,鋪天蓋地到處都是AIGC。”有從業者向我透露。

海外的AIGC賽道已經跑出了獨角獸。10月18日,Stable Diffusion背後的Stability AI宣佈獲得1。01億美元來自Coatue和光速的投資,投後估值攀升至10億美元。

我瞭解到的訊息是:一個還在內測階段的AI生成內容平臺已經被十餘家美元基金圍獵;不少VC都在催FA給他們推類似的專案;一些原來業務更To B的公司也推出了面向C端的產品,比如,9月底,AI模特圖片解決商ZMO推出用文字驅動Photoshop的新產品,這家公司已經拿到高瓴、金沙江和GGV的錢。

“AI在細分領域的應用一直是DCM關注的主題,在DCM的Portfolio裡不僅有弘璣Cyclone這種RPA+AI公司,還有專注在AI藥物研發的星藥科技,AI工業視覺的阿丘科技等,快手中也大量應用了AI推薦機制。大概在去年年底,我們關注到國外的技術進展和代表性的內容生產公司,開始密切關注使用者端的內容生成工具。”DCM投資人告訴我。上週,生成式AI平臺TIAMAT宣佈完成數百萬美元天使輪融資,DCM也是本輪的投資方。

那麼,還是要回到一個關鍵問題,AI生成繪畫為什麼在2022年火了?

一個隨之而來的老生常談的問題是,文字工作者之後,這回該輪到插畫師失業了嗎?

01

簡單來說,這波AI繪畫產品的流行背後是關鍵技術的突破,轉折發生在去年年底到今年年初。

TIAMAT創始人青柑告訴我,團隊從去年下半年開始一直在做CV和NLP相關的東西。過去業內已經開發了很多生成影象的技術模型,但當時在全球技術社群裡,大家的統一認知是,接下來會是Diffusion模型的未來。

這個模型有何特別之處?

過去在AI領域,NLP涉及到的是自然語言處理,可能應用在自動續寫小說、劇本等領域,而圖形領域主要研究的是CV、CG、視覺識別或者自動駕駛。但圖形是一種模態,文字是另一種模態,兩個模態之間的互相理解和應用是難以跨越的技術難題。

此前應用較多的是由 Open AI提出的CLIP模型,這個模型使用已經標註好的“文字-影象”訓練資料, 一方面對文字進行模型訓練, 同時對影象進行另一個模型的訓練, 不斷調整兩個模型內部引數, 使得文字特徵值和影象特徵值能讓對應的“文字-影象”確認匹配。

但這個在2021年上半年提出的模型一直沒有很好的落地應用場景,直到2021年下半年結合了Diffusion模型。事實上,學界早就提出了Diffusion模型,只是過去沒有人把它應用在文字到影象之間的網路。

現在,這道技術上的門檻被邁了過去。CLIP + Diffusion 模型不僅可以支援從文字直接生成影象,而且影象的水準已經成熟到可以在商業場景落地,於是,正如我們看到的,大量AI繪圖應用扎堆出現。

這是Diffusion模型主導的時代,它構成市面上所有AI生成影象的底層技術,但每一個公司可以在上面開發出自己的框架和模型,因此生成的影象質量也各不相同。這就好比Diffusion是若干磚頭,大家都在拿它搭房子,但搭出的房子五花八門。今年初率先走紅的AI繪畫平臺 Disco Diffusion是第一個基於CLIP + Diffusion 模型的產品,開源的Stable Diffusion則是很多人眼中目前市面最強產品。

“更好的模型,更多的資料,更多的算力”,在《Generative AI: A Creative New World》中,紅杉的兩位合夥人對生成式AI流行的原因進行了更全面地概括。

他們總結了這一領域經歷的四波浪潮:

第一波浪潮:小模型(Small Models)占主導地位(2015年前)

第二波浪潮:規模競賽(2015年-至今)

第三波浪潮:更好、更快和更便宜(2022+)

算力變得更便宜,新技術如擴散模型(Diffusion Models),降低了訓練和執行所需的成本。

第四波浪潮:殺手級應用出現(現在)

“正如移動裝置透過GPS、攝像頭和網路連線等新功能釋放了新型別的應用程式一樣,我們預計這些大型模型將激發生成式AI應用程式的新浪潮。就像十年前移動網際網路被一些殺手級應用打開了市場一樣,我們預計生成式AI的殺手級應用程式也會出現,比賽開始了。”他們預判。

02

去年年底,TIAMAT開始在各社交平臺釋出圖片,同時向粉絲徵集名字。TIAMAT就是投票出來的結果。這個名字的含義是,古巴比倫神話中的創世神,“象徵用自然語言驅動生成內容,並以此創造一個世界”TIAMAT創始人青柑說到。

競爭激烈,已經有人將AI繪圖的湧現比作“眾神之戰”,那麼,誰是這個行業裡真正的“神”?

今年8月,國外博主Eliso比較了DALL-E 2 、Stable Diffusion和Midjourney 三個AI影象生成程式。他發現,DALL-E 2 生成的影象通常能最大限度地遵循提示;Stable Diffusion對某些提示效果更好,而對另一些提示效果更差,但可以透過修改更精確的描述以使其正常工作;Midjourney 風格非常獨特,但有時與輸入的關鍵詞不符。他的結論是:如果你只想使用這些 AI 中的任何一個,最好的選擇是Midjourney 。如果不想付費使用,最好的選擇是Stable Diffusion,只需要申請就能免費使用。

這當然是一個主觀的結論。從使用者的角度,UI、易用性、使用成本以及對關鍵詞的理解程度等都是可比較的維度,逐一審視,當下的軟體在不同應用場景下都各有其優缺點。

從專業的層面,決定一個AI影象生成產品形態的有三個維度。

其一是模型,這需要應用大量資料訓練,這是一個花費高昂的過程。

國外,谷歌、Meta、微軟等大廠都是AI內容生成的積極探索者,國內的網際網路公司中,百度已經上線了中文版的AI繪畫工具“文心·一格”,擁有海量資料的大廠在這一賽道會有先發優勢嗎?

在青柑看來,國內大廠在模型上有一些進展,但在語義理解方面未必有海外成熟。這跟資料息息相關,用於訓練的模型資料必須非常“乾淨”,必須是“有效的、匹配的、可增強的資料”。具體來說,光有圖片不行,一張圖片旁邊必須配一句對影象精準的描述才算合格。從這個層面說,大廠如果沒有提前收集、整理資料,那麼跟創業公司幾乎是在同一起跑線上。“可能會有一些資料積累的優勢,但也需要花費時間和成本校對那些資料。”

每個公司都有自己資料接入的方式,但從結果上看就是,誰能更快速地獲得更多有效資料,誰的壁壘就會越來越高。

其二是工具,這涉及到如何使用模型,比如在互動方式上,是用文字去調動影象生成還是影象加文字調動影象生成?

其三是社群,海外的平臺一般都會配套創作者社群,因為誰在使用工具是一件很重要的事情。搭建在Discord上的Midjourney擁有超過百萬人的社群,Midjourney創始人曾在採訪中這樣描述社群的重要性:“社群內有數百萬人在製作影象,每個人都在互相模仿,產生新的美學。它們不是AI美學,而是新的有趣的人類美學。”

社群不僅是激發創作靈感的地方,在很大程度上也影響著AI生成圖片的風格。“我們可以在社群裡觀察到,使用者每天在發什麼樣的圖,生成什麼樣的圖,將圖片用於什麼樣的場景中,再不斷根據反饋來調整模型。”青柑告訴我。

和海外產品相比,TIAMAT目前的技術壁壘體現在對中文語義的理解上。生成影象的本質還是創造內容,內容就會有其生長和使用的文化土壤。如果你想用AI繪圖復現心裡的《桃花源記》,不管在積累的資料還是自然語言理解方面,海外的平臺都並不能很好地達成這些目的。

比起英文,中文在自然語言理解的難度會陡然提高,如何消除歧義,更好地理解和表達中文語境,同時破解更復雜含蓄的“意境”,是TIAMAT團隊最近想突破的難題。

03

像所有新技術一樣,在令人驚歎的同時,AI繪畫從誕生之初就伴隨爭議。其中一個爭議,是版權及倫理問題。

為規避版權爭議,TIAMAT和Midjourney都謹慎地在素材庫中使用無版權的圖片。但有熟悉這些工具的博主稱,目前市面上所有AI工具生成的圖片,即使付費,都只是“理論上可商用”,仍存在一定風險,風險主要來源於描述詞會引來畫風抄襲的爭議。設計師努力創造一種特定的風格,但如果他們的作品被AI當做素材,會發生什麼?

這種擔憂並非多慮。《麻省理工技術評論》9月釋出了一篇文章:數字藝術家 Greg Rutkowski 因為看到他的繪畫風格被AI影象生成平臺複製而不安,指向的正是剛釋出不久的Stable Diffusion——生成式AI從網上抓取資料來訓練自己的模型,有時會未經在世藝術家允許就收集他們的藝術作品。類似的聲音已經在國內出現,畫師九度樂最近在微博上抨擊了這一現象,“難道以後發圖要打上滿屏的水印了嗎……誰也不想自己辛苦半個月磨出來的圖被AI拿去當素材庫了”。

但從法律的層面,認定構成侵權行為並非易事。有熟悉相關法律的人士告訴我,所謂的“畫風”更偏重主觀感受上的歸類,認定侵權先要明確權利,同時主張被侵權一方要承擔主要的舉證責任,和文字相比,構成更復雜的圖片需要提供更充分翔實的證據支援。“AI的學習模式類似於一個‘運動員的集訓’,配比數以百萬計的‘如果’,才有可能出現期待的‘那麼’或者‘結果’。不是因果論,是結果論。”

從倫理上講,如果想將在世藝術家的作品用作素材,最好的做法是獲取其授權,但因為AI繪畫仍處於發展早期,這樣的實踐還不太多。

那個更具普世性的爭議是,AI取代人工會不會構成對從業者的威脅?

8月,一幅由Midjourney自動生成的畫作《太空歌劇院》在美國的一個美術競賽中獲得了一等獎,但因該作品由AI繪圖工具完成,引發不少藝術家的指責。我無意圍繞相關爭議再展開討論。AI生成影象之於構圖創造力就像攝影之於繪畫,把攝影作品和油畫作品放在一起比較,這本身就不夠合理。

但我們關心AI繪畫的未來走向以及技術嬗變對人類帶來的長期影響。這並非杞人憂天,已經有給AI打雜的精修插畫師工種誕生了。就我個人的體驗而言,AI繪畫的質量、甚至其創造力和想象力都不一定比人類畫師差,只是從工具的角度,現階段AI對人類需求的理解還不夠準確,生成的影象並不能完全匹配提示詞。

這當然與技術的發展階段有關。李彥宏曾判斷AIGC將走過三個發展階段:

第一個階段是“助手階段”,AIGC用來輔助人類進行內容生產;

第二個階段是“協作階段”,AIGC以虛實並存的虛擬人形態出現,形成人機共生的局面;

第三個階段是“原創階段”,AIGC將獨立完成內容創作。

“我的出發點肯定不是做一個東西把自己的興趣愛好替代掉,對吧?”青柑畢業於中科院上海科技大學,學的是計算機專業,但她在中學時代是個美術生,差點就去參加藝考。

她更喜歡跟我談論“人機比”的說法,會思考未來在不同的行業裡,人和機器的比例會是什麼樣。以Excel表格為例,過去是人來繪製表格並計算,現在人只要輸入資料,其他的工作Excel都能代勞。在她眼中,內容生產行業正在發生類似的事情,只是人機比例不同,Excel讓人的比例降得很低,但在內容生產領域,人仍然佔據更高的比例。

AI內容生成平臺的目的,是將人從機械勞動中解脫出來,釋放人的創作想象力。目前,TIAMAT排隊內測的使用者在2萬左右,C端使用者覆蓋設計師群體、遊戲和影視從業者以及部分技術從業者。在To B端,時下央視網、《時尚芭莎》、《嘉人》釋出的一系列主視覺均出自TIAMAT,TIAMAT也已經和知名IP版權方、頭部遊戲廠商等深度合作,提供概念設計、場景設計等,也能提供更潮流的營銷方案和廣告影象,同時也可以接入電商行業的工作流,幫助其提高效率和質量。

另一個關鍵的問題是,畢加索之所以是畢加索,是因為繪畫理念的革新,AI可以做到這一點嗎?它能輸出真正的藝術家作品,還是隻能生產仿品?

“TIAMAT現在每天生成的影象大概有十幾萬張,和人類學習繪畫的過程類似,我們觀察到,當把很多流派融合起來的時候,AI會創造一個新的流派。”這是青柑給我的答案。大膽預測,一方面,未來的藝術史中可能會出現AI流派。另一方面,AI生成的影象也會反向影響人類的審美,當我們越來越多地在生活中看到由AI生成的詭譎繁複的影象,人對美的定義也會漸漸變化。

前兩天她還被TIAMAT生成的影象驚豔到。當時她輸入的關鍵詞是,人工智慧預言的未來,生成的影象裡,一個人站在繁複的像程式碼塊堆疊起的歷史長河裡,似在凝望著未來。

04

回到開頭的那張圖,我不會畫畫,但我給AI輸入了指令,最終的作品算是我的創作嗎?

我很心虛。

但青柑認為,答案是不容置疑的。“人的主觀性一定是第一步,人先有一個想法,然後對映到真實世界裡,AI只不過是中間的對映器。”

生成式AI經由資料集模仿人類的想象力,數億張圖片的容量比個體記憶的容量要大得多。它們是出色的資料探勘者,但至少在現階段,它們仍然缺乏意識。

在DCM投資人George眼中,人類擁有自由意志,並樂於藉助工具來表達和詮釋,AI生成內容平臺就是人類發明的一種新的內容生產工具。“人類文明發展的軌跡就是不斷透過技術的演變,發明新的工具,然後用新的工具去跟世界連線,人和人之間互相連線,所以我們認為,AI生成內容是一個結構性的變革,是一種科學和藝術、人和機器的耦合。”

如果去想象其未來,TIAMAT這樣的平臺有可能發展成綜合的AI內容創作平臺。大家一開始都是透過prompt(在機器中輸入關鍵詞)的方式,書寫一種人機耦合的語言來生產內容,但將來可以用的內容媒介會越來越多,人們在生產內容之後還會儲存並回來搜尋,在這個過程中產生更多反饋機制。

“從百度的搜尋機制,到頭條的推薦機制,到現在更新方式的prompt,是不是能透過它去引領一個新的內容生產創作的正規化呢?”George丟擲了一個面向未來的問題。

圖片界的“今日頭條”——這是我看到的某AI繪圖平臺寫在BP上的定位。

無論如何,技術還在不斷迭代。Make-a-scene已經支援上傳簡單的草圖來生成影象;Stable Diffusion 很可能在一年之內就能在智慧手機上執行;一些模型已經開始著手動態影片生成,比如,YouTube 上的創作者DoodleChaos最近使用 Disco Diffusion V5。2 Turbo 製作了一段完整的音樂影片。在百度世界大會上,李彥宏預言,未來十年,AIGC將顛覆現有內容生產模式,可以實現以“十分之一的成本”,以百倍千倍的生產速度,去生成AI原創內容。

也許,“prompt一下”的時代離我們並不遙遠。

Top