記者 俞陶然
在日前舉行的中國(guó)首部AI動(dòng)畫(huà)片《千秋詩(shī)頌》啟播暨中央廣播電視總臺(tái)人工智能工作室揭牌儀式上,上海人工智能實(shí)驗(yàn)室研發(fā)的文生視頻大模型“書(shū)生·筑夢(mèng)”亮相。這個(gè)AI模型已經(jīng)開(kāi)源,授權(quán)用戶(hù)單位免費(fèi)商用。它的參數(shù)量超過(guò)30億,可根據(jù)輸入的提示詞生成有故事性、含多鏡頭的分鐘級(jí)視頻,具有轉(zhuǎn)場(chǎng)流暢、故事連貫、畫(huà)質(zhì)高清等特點(diǎn)。
“由于數(shù)據(jù)、算力等資源限制,‘筑夢(mèng)’在視頻生成能力、時(shí)長(zhǎng)、質(zhì)量上與Sora還存在差距。”上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華說(shuō),“隨著同總臺(tái)的深度合作,實(shí)驗(yàn)室研發(fā)的模型在對(duì)中華文化的理解表現(xiàn),以及與媒體編創(chuàng)實(shí)際生產(chǎn)流程的融合上,逐漸顯露出特色優(yōu)勢(shì)。這類(lèi)產(chǎn)研結(jié)合的新技術(shù)發(fā)展模式,將使我國(guó)AI技術(shù)發(fā)展走出差異化道路,并形成我們的文化特色。”
國(guó)內(nèi)首部文生視頻動(dòng)畫(huà)問(wèn)世
上海人工智能實(shí)驗(yàn)室是我國(guó)人工智能領(lǐng)域的新型科研機(jī)構(gòu),開(kāi)展戰(zhàn)略性、原創(chuàng)性、前瞻性的科研和技術(shù)攻關(guān),旨在突破人工智能的重要基礎(chǔ)理論和關(guān)鍵核心技術(shù),支撐我國(guó)人工智能產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展。目前,實(shí)驗(yàn)室已聯(lián)合高校和企業(yè),開(kāi)發(fā)出“書(shū)生·浦語(yǔ)”“書(shū)生·浦語(yǔ)靈筆”“書(shū)生·浦語(yǔ)數(shù)學(xué)”等一系列大模型,并通過(guò)GitHub等平臺(tái)實(shí)現(xiàn)開(kāi)源,并給予企業(yè)和開(kāi)發(fā)者免費(fèi)商用授權(quán),打造大模型開(kāi)源創(chuàng)新生態(tài)。
“書(shū)生·筑夢(mèng)”是“書(shū)生”系列大模型之一,可賦能視頻創(chuàng)作。它與文生視頻框架AnimateDiff以及可控圖像生成、圖像驅(qū)動(dòng)等技術(shù)結(jié)合,在動(dòng)畫(huà)片等視頻領(lǐng)域有廣闊的應(yīng)用前景。其中,文生視頻框架AnimateDiff無(wú)需額外的數(shù)據(jù)收集和定制化訓(xùn)練,就能一次性、快速地為大多數(shù)個(gè)性化文本轉(zhuǎn)圖像模型提供動(dòng)畫(huà)效果。用這個(gè)框架制作的AI視頻已亮相今年央視春晚,成為歌曲《枕著光的她》中溫馨的動(dòng)畫(huà)背景。
去年,上海人工智能實(shí)驗(yàn)室與中央廣播電視總臺(tái)開(kāi)始合作。去年7月,雙方聯(lián)合發(fā)布“央視聽(tīng)媒體大模型”。這是國(guó)內(nèi)首個(gè)專(zhuān)注于視聽(tīng)媒體內(nèi)容生產(chǎn)的大模型,集聚了總臺(tái)的海量視聽(tīng)數(shù)據(jù)和實(shí)驗(yàn)室的原創(chuàng)先進(jìn)算法、大模型訓(xùn)練基礎(chǔ)設(shè)施優(yōu)勢(shì)。
林達(dá)華介紹,“央視聽(tīng)媒體大模型”包含新聞助手、數(shù)字人、文生視頻、動(dòng)畫(huà)制作、場(chǎng)景渲染等功能板塊,融合了“書(shū)生·浦語(yǔ)”大語(yǔ)言模型、“書(shū)生·筑夢(mèng)”文生視頻大模型等AI多模態(tài)產(chǎn)品。
如今,利用“書(shū)生·筑夢(mèng)”等AI工具制作的系列動(dòng)畫(huà)片《千秋詩(shī)頌》已完成,將從2月26日起在總臺(tái)綜合頻道(CCTV-1)播出。這一國(guó)內(nèi)首部AIGC(人工智能生成內(nèi)容)系列動(dòng)畫(huà)片共26集,每集約7分鐘,其美術(shù)設(shè)計(jì)、動(dòng)效生成和后期成片均由人工智能輔助制作,具有里程碑意義。
有望形成差異化國(guó)際競(jìng)爭(zhēng)力
《千秋詩(shī)頌》聚焦國(guó)家統(tǒng)編語(yǔ)文教材里的200多首詩(shī)詞,依托“央視聽(tīng)媒體大模型”,將這些詩(shī)詞轉(zhuǎn)化制作為國(guó)風(fēng)動(dòng)畫(huà)。節(jié)目首批推出《詠鵝》等6集詩(shī)詞動(dòng)畫(huà),再現(xiàn)古典詩(shī)詞中凝聚的家國(guó)情懷和人間真情,讓觀眾特別是青少年感受到中華文化的恒久魅力,在內(nèi)心厚植文化自信。
大模型是如何生成這部動(dòng)畫(huà)片的?林達(dá)華展示了一些制作環(huán)節(jié):在“央視聽(tīng)媒體大模型·AIGC動(dòng)畫(huà)制作”界面上,上傳一張?zhí)瞥嗄昴凶拥?ldquo;參考風(fēng)格圖片”,隨后在“概念設(shè)計(jì)描述”文本框里輸入“中國(guó)風(fēng),唐朝,中年,清秀,男性,淡綠色衣服”,幾秒鐘后,一個(gè)符合這些提示詞的動(dòng)畫(huà)人物形象就出現(xiàn)在屏幕上。
按照這個(gè)流程,動(dòng)畫(huà)片里的各種唐朝人物很快誕生,節(jié)省了動(dòng)畫(huà)人物美術(shù)設(shè)計(jì)的大量人力和時(shí)間成本。“中國(guó)風(fēng),唐朝,女孩,圓潤(rùn),粉白色裙子”“中國(guó)風(fēng),唐朝,軍官,年紀(jì)較大,男性,嚴(yán)肅”“中國(guó)風(fēng),唐朝,壯年,男性,灰色帽子和灰色服裝”……記者看到,大模型生成的人物形象都與提示詞相符,畫(huà)風(fēng)也頗為精美。
據(jù)介紹,這些動(dòng)畫(huà)人物的服飾都符合唐代服飾特點(diǎn)。不僅如此,動(dòng)畫(huà)片里的建筑、器皿、擺件等道具也都有歷史依據(jù),參考了博物館文物和相關(guān)圖片。如片中的熏香爐源自陜西歷史博物館的“透雕忍冬紋五足銀熏爐”;孟浩然桌上的茶具是由AI技術(shù)復(fù)原的唐代“七星盤(pán)”;城門(mén)則是在參考唐代丹鳳門(mén)的基礎(chǔ)上,用AI技術(shù)風(fēng)格化處理后創(chuàng)作而成。
在訓(xùn)練“書(shū)生·筑夢(mèng)”時(shí),科研團(tuán)隊(duì)和節(jié)目導(dǎo)演給它輸入了大量包含中國(guó)傳統(tǒng)文化的精準(zhǔn)數(shù)據(jù),讓它能生成有歷史依據(jù)的人物、場(chǎng)景等圖片,其美術(shù)風(fēng)格具有中國(guó)水墨畫(huà)和工筆畫(huà)的特質(zhì)。
在場(chǎng)景和建筑美術(shù)設(shè)計(jì)環(huán)節(jié),輸入“中國(guó)風(fēng),唐朝,官員宴客廳”等提示詞后,“書(shū)生·筑夢(mèng)”即可再現(xiàn)大唐場(chǎng)景。在輔助動(dòng)效生成環(huán)節(jié),選取一張官員圖片,再輸入“唐朝,一個(gè)官員,哈哈大笑”,就生成了官員端起酒杯大笑的短視頻。
AIGC技術(shù)制作的動(dòng)畫(huà)片質(zhì)量到底如何?近日播出后,將由觀眾評(píng)判。在林達(dá)華看來(lái),這種科研機(jī)構(gòu)與傳媒機(jī)構(gòu)合作的技術(shù)發(fā)展模式,有望形成差異化的國(guó)際競(jìng)爭(zhēng)力,實(shí)現(xiàn)科技和文化的協(xié)同創(chuàng)新。