導(dǎo)航菜單

OpenAI Sora問世GPT4可能也要被干掉了 有哪些優(yōu)勢

導(dǎo)讀 OpenAI推出 AI視頻生成產(chǎn)品Sora,正式加入AI視頻生成領(lǐng)域的競爭。 OpenAI的CEO山姆奧特曼在社交平臺上發(fā)文表示,OpenAI已經(jīng)準備好了所有...

OpenAI推出 AI視頻生成產(chǎn)品Sora,正式加入AI視頻生成領(lǐng)域的競爭。 OpenAI的CEO山姆奧特曼在社交平臺上發(fā)文表示,OpenAI已經(jīng)準備好了所有的關(guān)鍵資源,將會專注于進行AGI打造。Sora的功能之強大,很有可能將 ChatGPT-4干掉。

Sora作為OpenAI手推的文本轉(zhuǎn)視頻模型,可以根據(jù)文本指令或者是動態(tài)圖像快速生成一段長達一分鐘的視頻。視頻當(dāng)中包括生動的角色表情、精細復(fù)雜的場景、以及極其復(fù)雜的運動鏡頭。同時還能夠接受現(xiàn)有視頻的擴展,或者是將缺失的針填補。

在長度方面,每條提示60秒的視頻與3秒的Pika Labs、4秒的Meta Emu Video、和18秒的Gen-2的相比穩(wěn)贏。從官方所發(fā)布的演示視頻來看,無論是在細節(jié)表現(xiàn)能力方面還是流暢度方面,Sora給人帶來的效果都相當(dāng)驚艷。

對于Sora,OpenAI仍然延續(xù)了以往的傳統(tǒng),并沒有提供詳細的技術(shù)方面的說明,但是其中的一些只言片語,就足以讓消費者浮想聯(lián)翩,其中最吸引大家注意的是對數(shù)據(jù)方面的處理。

Sora屬于一個擴散型的模型,所采用的架構(gòu)類似于GPT的Transformer。但是,

Openai表示在解決訓(xùn)練中視頻數(shù)據(jù)與文本資料之間的統(tǒng)一方面,他們在處理視

頻和圖像數(shù)據(jù)時,將其分割成了最小的單元,并將其稱之為小塊,所對應(yīng)的是

LLM中最基本的tokens單元。

這個技術(shù)細節(jié)非常的重要。在模型處理當(dāng)中,將其作為基本的單元,深度學(xué)習(xí)

算法可以更有效的處理各種不同的視覺數(shù)據(jù),包括了不同的寬高比分辨率和持續(xù)時間。最終給得出的效果相當(dāng)?shù)恼鸷?,因此可以得出的結(jié)論是可以將對語言的理解能力遷移到對更多形態(tài)數(shù)據(jù)的理解方法正確。

Sora能夠模擬和理解現(xiàn)實世界的模型的基礎(chǔ),這一功能將會在AGI的實現(xiàn)過程當(dāng)中擁有著里程碑式的作用。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

猜你喜歡:

最新文章: