今天我可是懷揣著超級(jí)大驚喜來(lái)找你們了,你一直心心念念、望眼欲穿的免費(fèi)開(kāi)源視頻模型,它真的來(lái)啦!而且還是騰訊重磅上線的混元視頻生成大模型,最最關(guān)鍵、最最讓人激動(dòng)的是 —— 它開(kāi)源了!重要的事兒說(shuō)三遍,開(kāi)源了!開(kāi)源了!開(kāi)源了!此刻,啥也別說(shuō)了,點(diǎn)贊、收藏、關(guān)注這一波操作必須安排上,咱這就一起上手,好好探個(gè)究竟。
要知道,它剛發(fā)布不久,為了讓咱能更順暢地駕馭這個(gè) “寶藏”,官方不僅給出了寫提示詞的 3 個(gè)實(shí)用公式,還貼心到了。就怕咱犯懶,直接把景別、光線、相機(jī)運(yùn)動(dòng)這些常用術(shù)語(yǔ)都做成了現(xiàn)成的標(biāo)簽,咱動(dòng)動(dòng)手指點(diǎn)一點(diǎn)、選一選就行,上手難度直線下降,這也太香了吧!
咱先來(lái)瞅瞅它常規(guī)的視頻模型指標(biāo),拿運(yùn)動(dòng)效果開(kāi)刀。嘿,直接給強(qiáng)度拉滿,來(lái)個(gè)兩人打架的場(chǎng)景,好家伙!那動(dòng)作幅度大得超乎想象,可畫面居然基本流暢,人物動(dòng)作行云流水,還嚴(yán)絲合縫地遵循著物理規(guī)律,一點(diǎn)兒不違和。再加點(diǎn)碼、上個(gè)強(qiáng)度試試,哪怕場(chǎng)景里擺上兩面鏡子,整個(gè)畫面也沒(méi)崩,人物走鏡子迷宮,照樣穩(wěn)穩(wěn)當(dāng)當(dāng),雖說(shuō)跳舞場(chǎng)景偶爾會(huì)有點(diǎn)小瑕疵,但這表現(xiàn)力已經(jīng)強(qiáng)到讓人咋舌了,甚至還能在一個(gè)鏡頭里實(shí)現(xiàn)兩種不同動(dòng)作,讓人物先捂嘴、再舉手,指哪打哪,精準(zhǔn)得很吶!
質(zhì)感這塊更是一絕。雖說(shuō)咱沒(méi)特意強(qiáng)調(diào)要電影質(zhì)感,可它呈現(xiàn)出來(lái)的畫面,隨便截一幀都自帶大片范兒,景深、光圈、色調(diào)配合得恰到好處,電影感滿滿。不過(guò)深入把玩一番,我發(fā)現(xiàn)它最拿手的還是真實(shí)質(zhì)感,走紀(jì)錄片風(fēng)格。就說(shuō)生成個(gè)小鹿在森林漫步的畫面吧,加上自然光的描述,你瞧那小鹿的毛發(fā),根根分明,隨著步伐一顫一顫的,活靈活現(xiàn);再整一個(gè)羚羊出鏡,配上點(diǎn)應(yīng)景的背景音樂(lè),好家伙,瞬間《動(dòng)物世界》那味兒就有了,素材這不就輕松拿捏了嘛!
它還有兩大 “獨(dú)門絕技”,堪稱王炸。首當(dāng)其沖的就是超級(jí)語(yǔ)義理解能力。我從《老人與海》里摘了一段小說(shuō)片段當(dāng)提示詞,這要擱一般的視頻模型,估計(jì)早就懵圈、畫面崩塌了,但混元可不一樣,精準(zhǔn)捕捉文字里的氛圍、意境,呈現(xiàn)出來(lái)的畫面跟原著貼合得嚴(yán)嚴(yán)實(shí)實(shí),還巧妙地安排了剪切點(diǎn),鏡頭組合堪稱完美。再拿一段毫無(wú)場(chǎng)景描述的臺(tái)詞測(cè)試,咱人類都得琢磨半天、腦補(bǔ)一堆畫面,沒(méi)想到混元跟咱心有靈犀,精準(zhǔn)還原出兩個(gè)男人聊天、劇場(chǎng)、下坡這些元素,手持鏡頭的抖動(dòng)感都模仿得惟妙惟肖,這語(yǔ)義理解能力,我必須給打漢語(yǔ)十級(jí)!
另一大絕技是鏡頭組合。提示詞寫復(fù)雜點(diǎn)兒,它能自動(dòng)分析,給你安排兩個(gè)鏡頭來(lái)精準(zhǔn)傳達(dá)信息;要是你想親自掌控,直接寫明個(gè)鏡頭、第二個(gè)鏡頭的要求,它立馬奉上風(fēng)格一致的鏡頭組,簡(jiǎn)直太懂咱心思了。
這么厲害的模型,騰訊在 huggingface 和 GitHub 上都大方開(kāi)源了模型權(quán)重、推理代碼、模型算法等一整套完整內(nèi)容,想搞二次開(kāi)發(fā)、大展拳腳的朋友,趕緊去 GitHub 主頁(yè)瞅一瞅;要是單純圖個(gè)使用方便、體驗(yàn)感好,那就直奔騰訊元寶官方頁(yè)面。