很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
來源|光錐智能
前沿科技,數(shù)智經(jīng)濟
AI視頻一躍成為“明日之星”,大廠和創(chuàng)業(yè)公司們打得熱火朝天。
去年12月,Pika的出現(xiàn)仿佛點燃了AI視頻賽道的引線,一個月之內(nèi)冒出了近十家公司,谷歌、阿里、字節(jié)、騰訊競相下場,不斷將戰(zhàn)事推向了高潮。
“AI視頻的Midjourney V5時刻就要到了”,即將迎來成為生產(chǎn)力的關(guān)鍵時刻。
2022年~2023年,文生圖的技術(shù)以肉眼可見的速度迭代進化。Midjourney平均3個月一個版本,一路從V1狂奔到了V6,實現(xiàn)了從“面目全非”到“細膩逼真”的里程碑式的巨變。文生圖技術(shù)以月為單位的進化速度,像一把節(jié)奏緊湊的小錘,不停提醒所有AI視頻的公司們,留給他們成長的時間,不多了。
如今AI視頻的發(fā)展軌跡也正在慢慢向文生圖靠攏,“Midjourney V5”成為了一個關(guān)鍵性的臨界點:一旦突破,用戶將大規(guī)模涌入,數(shù)據(jù)飛輪開始轉(zhuǎn)動,效果日新月異,一步步推動著文生視頻從“玩具”蛻變?yōu)?ldquo;生產(chǎn)力”。
從文字到圖片、視頻的發(fā)展一脈相承,從文生圖的進化歷程中,也可以找尋到AI視頻的影子。
當(dāng)AI視頻成為生產(chǎn)力后,才是產(chǎn)業(yè)鏈齒輪開始轉(zhuǎn)動的開端。只有能用起來,才能誕生目標(biāo)用戶群體;只有能留存住用戶,產(chǎn)生持續(xù)性的付費,才能構(gòu)建起清晰的商業(yè)模式;也只有跑通了商業(yè)模式,池子里的企業(yè)才能存活下來,用消費端推動供給端,才能盤活整個AI視頻產(chǎn)業(yè)。
“AI視頻行業(yè)的生產(chǎn)力”——這恰恰才是現(xiàn)在各路玩家爭奪的價值所在。
夢工廠創(chuàng)始人Jeffrey Katzenberg在近期預(yù)測,“生成式AI將使動畫電影的成本,在未來3年內(nèi)降低90%,該技術(shù)將給媒體和娛樂行業(yè)帶來徹底的顛覆”。
“未來可能實現(xiàn)以每秒30幀的高分辨率實時生成內(nèi)容,并且到2030年,可能會實現(xiàn)整個視頻游戲的生成 ”,Midjourney首席執(zhí)行官DaVid Holz判斷道。
V5賽點已至,新一輪的排位賽正式打響,何時才能誕生下一個Midjourney?
實際上,AI視頻幾乎與文生圖同一時期進入到人們視野中。
2023年初,Midjourney帶火了文生圖,Runway則激起了“人人制作電影大片”的無限遐想。
彼時,看到文生圖領(lǐng)域在效果上大放異彩的Runway創(chuàng)始人曾表示:“希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。我們已經(jīng)看到了圖像生成模型的爆發(fā),我相信2023年將會是視頻之年。”
但顯然這個論斷下得有點過早。2月,RunwayAI視頻編輯Gen-1發(fā)布,功能類似于AI版的PS,可通過文字輸入進行視頻的風(fēng)格轉(zhuǎn)化和修改;3月,發(fā)布文生視頻模型Gen-2,支持文生視頻、文本+圖像生成視頻。
宣傳視頻很酷炫,但具體使用效果卻差強人意,出現(xiàn)了時長短、生成畫面不穩(wěn)定、指令理解出錯、沒有音頻、動作不連貫和不合理等等種種問題。
Runway打響AI視頻第一槍后,雖未停下腳步,但卻在視頻編輯工具的道路越走越遠,運動筆刷、文字轉(zhuǎn)語音、視頻合成等功能,只能算“錦上添花”。Gen-2遲遲沒有根本性的突破,也讓AI視頻沉寂了一段時間。
就在大家快要失去對AI視頻耐心的時候,去年12月,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字節(jié)Magic Animate,踏著希望之光來了。
在Pika的官方宣傳片中,僅需一句話,就生成了動畫版的馬斯克,不但神形兼?zhèn)?,而且背景和動作都非常合理連貫,面部一致性也驚人得完美。
在其官方展示的第一個視頻中,生成效果幾乎可以達到迪士尼等動畫電影公司的質(zhì)感。
據(jù)使用過Pika 1.0產(chǎn)品的用戶反映,Pika 1.0 支持3種方式生成視頻:文生視頻、圖生視頻、視頻轉(zhuǎn)視頻。3D和2D效果確實上了一個全新的臺階,逼真度、穩(wěn)定性、光影效果都可以吊打Gen-2。
“Pika 1.0和Gen-2仿佛不是一個時代的產(chǎn)品”,不少網(wǎng)友都在使用后給出了這樣的評價。
Pika們的爆火,要歸根于背后基建技術(shù)的成熟。其中最重要的就是AnimateDiff。這是一種基于Stable Diffusion文生圖模型所搭建起來的動畫框架,可讓生成的圖片直接動起來,字節(jié)、騰訊、阿里便是在這個框架的基礎(chǔ)上推出了自己的AI視頻模型。
當(dāng)然,除了AnimateDiff的廣泛應(yīng)用,也與大模型多模態(tài)的發(fā)展,息息相關(guān)。
Pika們的出現(xiàn)開啟了AI視頻的新篇章,AI視頻即將迎來“Midjourney V5”時刻。
這里面有兩層重要的變化,首先體現(xiàn)在生成層面。
V5階段,可達到更好的生成效果,在幾秒的生成時間內(nèi)能夠達到動作、表情、敘事邏輯的連貫性;更有效的控制方式,對輸入指令的理解、遵從,鏡頭、轉(zhuǎn)場 、風(fēng)格轉(zhuǎn)化的控制都有了新的提升;更低的資源消耗,能夠以更短的時間、更少的算力調(diào)用,生成更高分辨率和優(yōu)質(zhì)的視頻,幾秒的視頻也可以達到幾十秒的效果。
更重要的體現(xiàn)在生產(chǎn)力的突破上。
以Midjourney為例,在V5階段,成為了UI設(shè)計師的設(shè)計工具,游戲原畫師的助手,跨境電商的商品展示、廣告營銷的素材庫。同樣在這個階段,AI視頻也將有可能生成廣告、短視頻、電影、游戲,成為可以替代編導(dǎo)、導(dǎo)演、演員、設(shè)計師的生產(chǎn)力工具。
兩條技術(shù)路徑的殊途同歸
AI視頻就像一部電影大片,賣不賣座、叫不叫好,取決于劇本和特效兩個重要元素。其中,劇本對應(yīng)著AI視頻生成過程中的“邏輯”,特效則對應(yīng)著“效果”。
為了實現(xiàn)“邏輯”和“效果”,在AI視頻行業(yè)中,分化出了兩條技術(shù)路徑擴散模型和大模型。
AIGC火了以后,擴散模型長期占據(jù)了圖像生成領(lǐng)域的主導(dǎo)位置,這背后要歸功于Stability AI的不斷開源,一方面讓更多的開發(fā)者加入到了精進模型的隊伍中,另一方面也一手將擴散模型捧到了文生圖領(lǐng)域的“王位”上。
如今,AI視頻自然也被深深地打上了擴散模型的烙印。大廠和初創(chuàng)公司或多或少都在采訪和論文中提到過擴散模型的思路,Pika一批新崛起的公司取擴散模型之長,打造自身的新模型;英偉達、阿里、字節(jié)、騰訊等公司在其基礎(chǔ)之上,進一步提升模型能力。
在大模型技術(shù)路線上,經(jīng)歷過一次改變。大模型面世的初期,AI視頻的主要思路是用訓(xùn)練大模型的那套方法,靠大參數(shù)、大數(shù)據(jù)來從頭構(gòu)建一個文生視頻的模型,比如2022年就問世的CogVideo就是這類代表。
但隨著大模型從單一文本邁向多模態(tài),視頻就像之前文字、圖像生成一樣,成為了從大模型根上長出來的一項功能。從很早的時候,谷歌、微軟就在嘗試用大模型中Transformer的方法訓(xùn)練和增強現(xiàn)有的擴散模型,但直到谷歌發(fā)布多模態(tài)大模型Gemini和VideoPoet視頻大模型后,大模型生視頻這條路才終于看到了曙光。
兩條技術(shù)路徑無好壞,但側(cè)重點不同,擴散模型的核心在于“還原呈現(xiàn)”,重效果;而大模型核心在于“接收理解”,重邏輯。
正是基于這樣的特性,導(dǎo)致了走擴散模型路線的AI視頻公司在細節(jié)刻畫和生成效果上優(yōu)勢更強,走多模態(tài)大模型路線的公司在連貫性和生成合理性上更好。
Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng認為,可以同時發(fā)揮兩條路徑的優(yōu)勢來構(gòu)建視頻模型,比如GPT一類的大模型可以捕捉上下文,視頻中也需要上下文控制生成每一幀從而達到系統(tǒng)的一致性;同時每一幀仍然是一張圖片,可以用擴散模型來提高生成效果。
Pika的觀點不是個例,行業(yè)中越來越呈現(xiàn)出這樣的趨勢。原因在于,雖然現(xiàn)階段,Pika、Runway每一次升級都在效果宣傳上搏足了眼球,但要落地到廣告、電影、營銷等實際場景中,還有很大的距離。
英偉達高級研究科學(xué)家兼人工智能代理負責(zé)人,Jim Fan認為,目前所生成的視頻只能被稱作“無意識的、局部的像素移動”,缺乏可以一以貫之的時間、空間、行為邏輯來控制生成過程。
有一個例子可以很好地理解當(dāng)前AI視頻發(fā)展現(xiàn)狀。在X上,一個名叫Ben Nash的網(wǎng)友,做了一個測試,用同樣的英文提示詞“威爾·史密斯吃意大利面”來測試Runway、Pika的視頻生成效果。結(jié)果發(fā)現(xiàn),在兩個視頻中,雖然大致可以呈現(xiàn)出想要呈現(xiàn)的效果,但卻出現(xiàn)了“意大利面倒流”、“面被直接吸入嘴里”的滑稽場面。
Runway生成效果
Pika生成效果
Jim Fan表示:“到2024年我們將看到具有高分辨率和長時間連貫性的視頻生成。但這將需要更多的‘思考’,即系統(tǒng)2的推理和長期規(guī)劃(對應(yīng)System 1負責(zé)無意識的感覺運動控制)”。
近期Runway也在官網(wǎng)宣布了一項新的長期研究項目“通用世界模型”(General Wold Models),其解釋原因稱:“我們相信人工智能的下一個重大進步將來自于理解視覺世界及其動態(tài)的系統(tǒng)。”
邏輯、思考、推理,或許將成為,2024年AI視頻的關(guān)鍵詞,兩條技術(shù)路線的融合也將成為常態(tài)。
而一旦成為生產(chǎn)力,眼前AI視頻面臨的商業(yè)化困境,便迎刃而解。
生產(chǎn)力工具有兩個方向,向上走的專業(yè)化路線,和向下包容的大眾路線。但現(xiàn)階段,AI視頻行業(yè)多數(shù)還是以視頻剪輯工具的形態(tài)向用戶開放使用。
“工具即產(chǎn)品”在文生圖和AI視頻賽道十分普遍,大部分公司選擇方法就是,最開始先在Discord上小范圍開放測試,到正式開放使用,再到上線網(wǎng)站。
“工具”意味著專業(yè)性高、門檻高、操作復(fù)雜、上手困難,這就與易上手、操作便捷、體驗性高的“產(chǎn)品”拉開了差距。
舉一個很典型的例子,你需要花費時間、金錢成本在PR軟件上了解每個工具的功能是什么以及怎么使用這些工具,以達到比較好的視頻制作效果;但你打開抖音發(fā)布視頻只需三步,點擊加號-拍攝視頻-發(fā)布,下至幼兒園的孩子,上至60多歲的中老年人,都能覆蓋,這就是工具與產(chǎn)品最明顯的差異。
生產(chǎn)力未突破的前夜,工具即產(chǎn)品或許還將存在一段時間,但下一步擺在AI視頻公司面前的問題很明確:是要堅持走專業(yè)工具路線,還是要把門檻打下來,做下一個AI視頻版的“抖音”?
在這個問題上,Pika已經(jīng)率先做出了選擇,其創(chuàng)始人郭文景在采訪時表示:“我們開發(fā)的并不是電影制作工具,而是為日常消費者打造的產(chǎn)品——我們雖然有創(chuàng)造力,但并不是專業(yè)人士。”
落實到商業(yè)化上,郭文景稱Pika最終可能會推出分層訂閱模式,讓普通的付費用戶也能享用更多的功能,計劃通過這種方式,讓Pika與其他競品分出區(qū)別。
生產(chǎn)力能力欠缺的AI視頻工具也無法長期留住用戶,不斷地產(chǎn)生付費,從而形成健康的商業(yè)模式。現(xiàn)在的現(xiàn)狀是,用戶出于獵奇,或免費嘗鮮,或抱著試一試的心態(tài)訂閱一個月,到期過后,該視頻工具就被拋之腦后。
這對創(chuàng)業(yè)公司的打擊是巨大的,沒有持續(xù)性的收入,不能自造血,就得依賴融資,哪天融資斷了,公司也就維持不下去了。放眼到整個AI視頻行業(yè)來看,如果作為身在其中的個體都生存不下去,又談何行業(yè)未來前景。
如果一個行業(yè)只有單一的工具,沒有更多的落地場景,也無法形成完整的生態(tài)閉環(huán)。就像現(xiàn)在,用戶在AI視頻工具上淺淺地停留一下,然后把大把的流量引向了社交平臺。
比如,馬斯克跳舞、蒙娜麗莎跑步等大量搞怪視頻,一度席卷了TikTok;使用Runway、Pika等視頻工具生成的視頻,通過用戶在X、TikTok、油管的分享一炮走紅,獲得了巨大的流量,有人甚至已經(jīng)靠這種方式完成了流量變現(xiàn),而作為工具的提供方,卻只能淪為社交平臺的“嫁衣”。
打通工具和場景的壁壘,作為參考案例,國內(nèi)抖音已經(jīng)開始在嘗試。
剪映的相關(guān)AI功能一上線就和抖音實現(xiàn)了聯(lián)動,并引發(fā)了一波抖音擴圖大賞,“讓你意想不到的AI擴圖”一話題挑戰(zhàn),達到了2億多的播放量,甄嬛打籃球、星黛露秒變星黛驢、皮草美女化身狼人,AI是驚喜還是驚嚇,引發(fā)了大量的討論。
一旦成為了生產(chǎn)力,整個產(chǎn)業(yè)鏈條的消費端將開始出現(xiàn)購買力,消費端的需求推著供給端進化,至此,AI視頻才算徹底“活了”。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)