原標(biāo)題:電商數(shù)據(jù)、影視作品、網(wǎng)絡(luò)文學(xué)……都是幫助AI成長(zhǎng)的營(yíng)養(yǎng)
喂飽人工智能,浙企有“料”
OpenAI又“炸場(chǎng)”了。近日,具備“聽、看、說”出色本領(lǐng)的“GPT-4o”亮相,新模型能夠處理50種不同的語言,還能讀取人的情緒。僅僅兩日后,OpenAI宣布與社交網(wǎng)絡(luò)Reddit建立合作伙伴關(guān)系,這個(gè)被稱為“美國(guó)貼吧”的平臺(tái)內(nèi)容,將被引入ChatGPT和其他產(chǎn)品中。
將兩條信息連起來看,當(dāng)大眾驚嘆于AI的訓(xùn)練速度時(shí),不少業(yè)內(nèi)人士已嗅到一絲危機(jī):全能,意味著需要更強(qiáng)大的語料庫(kù)來訓(xùn)練AI,而優(yōu)質(zhì)的AI語料已經(jīng)越來越稀缺。
AI語料,簡(jiǎn)單來說,就是用于訓(xùn)練和優(yōu)化人工智能模型的數(shù)據(jù)集合。根據(jù)人工智能研究機(jī)構(gòu)Epoch的分析,在2026年前,科技公司很可能會(huì)耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)。
數(shù)字經(jīng)濟(jì)發(fā)達(dá)的浙江,是國(guó)內(nèi)優(yōu)質(zhì)AI語料資產(chǎn)庫(kù)存區(qū)域之一。如何充分發(fā)揮AI語料的存量?jī)?yōu)勢(shì)?應(yīng)對(duì)AI語料短缺的預(yù)期,浙江如何先發(fā)布局?
優(yōu)質(zhì)中文語料是稀缺資源
在AI大模型技術(shù)路徑逐漸清晰、各方搶占算力迭代產(chǎn)品的當(dāng)下,越來越多的業(yè)內(nèi)人士重新將目光投向驅(qū)動(dòng)模型生成的“燃料”——語料。
“大模型就像初生的孩子,教它學(xué)習(xí)、成長(zhǎng)的課本就是AI語料,編纂教材的過程就是構(gòu)建語料庫(kù)的過程?!焙贾莩鞘写竽X有限公司總經(jīng)理申永生形象比喻。目前,我國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量已超100個(gè),每一個(gè)都“嗷嗷待哺”,更優(yōu)質(zhì)更豐富的語料資源,才能支持其更新迭代。未來,AI語料將是行業(yè)爭(zhēng)奪的新戰(zhàn)場(chǎng)。
城市大腦即是通過“消化”“吸收”優(yōu)質(zhì)語料,形成分析研判能力,不斷提升社會(huì)治理與服務(wù)能力。“一方面,我們從各類用戶反饋端獲取語料,比如12345、留言箱、辦事窗口等信息,通過學(xué)習(xí)百姓與‘端’的互動(dòng)數(shù)據(jù),讓城市大腦更智能;另一方面,政府信息公開的數(shù)據(jù)也是語料來源之一,基于這類天然可抓取的數(shù)據(jù),我們能提供匯總更多公共服務(wù)的信息?!鄙暧郎榻B。
盡管有雙重途徑獲取語料,但存量資源短缺的事實(shí)也擺在眼前。眾多大模型“饑腸轆轆”,但面對(duì)海量數(shù)據(jù)卻不能“饑不擇食”,因?yàn)樵紨?shù)據(jù)需要經(jīng)過層層標(biāo)注與篩選,才會(huì)變成有價(jià)值的語料。
中文優(yōu)質(zhì)語料的供給,更迫在眉睫?!爸袊?guó)大模型發(fā)展要獲得突破,必然依賴于中文優(yōu)質(zhì)語料庫(kù)的建立?!鄙暧郎治?,目前多數(shù)大模型的數(shù)據(jù)訓(xùn)練多以英文為基礎(chǔ),如在ChatGPT的訓(xùn)練數(shù)據(jù)中,英文語料占比超92.6%,中文語料占比卻不足千分之一。語言的壁壘、流通的受限,使得中文優(yōu)質(zhì)語料在業(yè)內(nèi)成為“香餑餑”。
將語料數(shù)據(jù)化為生產(chǎn)力
在浙江,優(yōu)質(zhì)AI語料的存量?jī)?yōu)勢(shì)明顯。
以阿里巴巴為代表的電商企業(yè),擁有產(chǎn)品材料、客戶互動(dòng)數(shù)據(jù)、電商直播素材等大量電商相關(guān)AI語料;商湯科技、??低暤绕髽I(yè),在AI視頻識(shí)別方面積累了大量可用數(shù)據(jù);眾多MCN公司擁有海量短視頻素材;杭州的網(wǎng)絡(luò)文學(xué)作家村、之江編劇村等則是優(yōu)質(zhì)文本語料的儲(chǔ)藏地……
眼下,擁有語料“富礦”的浙企,已在暗自發(fā)力,利用自身擁有的語料資產(chǎn),開發(fā)和優(yōu)化自研工具庫(kù),拓展行業(yè)AIGC工具的應(yīng)用場(chǎng)景。
作為國(guó)內(nèi)電視劇行業(yè)的龍頭公司,華策集團(tuán)正在探索將語料數(shù)據(jù)變?yōu)閯?chuàng)作生產(chǎn)力。企業(yè)擁有超5萬小時(shí)的影視素材,以及影視劇本、IP評(píng)估報(bào)告、宣發(fā)材料等文本素材,這些都是制作AI語料的原料?;趯I(yè)語料,華策集團(tuán)AIGC應(yīng)用研究院訓(xùn)練并開發(fā)了一整套“影視劇本智能創(chuàng)作輔助系統(tǒng)”,集成了編劇助手、劇本評(píng)估、視頻檢索等多項(xiàng)功能。
“影視級(jí)別語料不僅質(zhì)量高,而且具有中華傳統(tǒng)文化特色,用影視語料訓(xùn)練出的大模型克服了海外大模型國(guó)外元素多或質(zhì)量低下的問題。”華策集團(tuán)AIGC應(yīng)用研究院副院長(zhǎng)沈雄介紹,在高質(zhì)量語料的基礎(chǔ)上,華策自研的“有風(fēng)”大模型3分鐘內(nèi)就能完成一部IP作品的初篩,30分鐘內(nèi)能精確評(píng)估百萬字作品內(nèi)容,這樣的體量過去依靠人工需要一周以上的時(shí)間,極大地提高了工作效率。
另一家金融浙企同花順,擁有企業(yè)十幾年積累的自身數(shù)據(jù)及市場(chǎng)的公開金融數(shù)據(jù),這些數(shù)據(jù)涵蓋了股票、基金、債券等各種證券類型,囊括了財(cái)經(jīng)領(lǐng)域的公告、新聞、研報(bào)等九大類語料,預(yù)訓(xùn)練金融語料達(dá)到了萬億級(jí)Tokens。
今年1月,同花順發(fā)布大模型問財(cái)HithinkGPT,成為市場(chǎng)上唯一集金融查詢、投資咨詢、資訊分析以及事件點(diǎn)評(píng)于一體的大模型。“專業(yè)的AI語料促進(jìn)了大模型技術(shù)和業(yè)務(wù)的創(chuàng)新,為金融領(lǐng)域提供了研究和開發(fā)的基礎(chǔ)資源?!逼髽I(yè)相關(guān)負(fù)責(zé)人表示,目前,同花順AI開放平臺(tái)可面向客戶提供智能金融問答、智慧政務(wù)平臺(tái)、數(shù)字虛擬人等多項(xiàng)AI產(chǎn)品及服務(wù)。
探路數(shù)據(jù)交易體系
隨著AI語料價(jià)值凸顯,眾多問題也浮出水面。今年初,《紐約時(shí)報(bào)》起訴OpenAI及其投資人微軟公司,指控二者未經(jīng)授權(quán)使用其數(shù)百萬篇文章訓(xùn)練大模型,打響了語料維權(quán)“第一槍”。
采訪中,不少企業(yè)表示,目前企業(yè)的語料數(shù)據(jù)主要用于開發(fā)和優(yōu)化自研工具庫(kù),尚未與其他公司達(dá)成商業(yè)合作?!罢Z料數(shù)據(jù)產(chǎn)品交易潛力巨大,但存在諸多不確定性,企業(yè)的擔(dān)憂在所難免。”申永生分析,除了版 權(quán)盜用的法律問題和訓(xùn)練模型存在的道德風(fēng)險(xiǎn)、價(jià)值觀隱患,AI語料真正走向市場(chǎng),最根本的是建立健全交易平臺(tái)和機(jī)制。
“這正是浙江搶占先機(jī)的重要方向?!鄙暧郎J(rèn)為,浙江已在數(shù)字經(jīng)濟(jì)領(lǐng)域占領(lǐng)高地,在語料儲(chǔ)備較充足的基礎(chǔ)上,可以從建立數(shù)據(jù)交易所開始嘗試,探索一條語料交易的新路。對(duì)此,浙江已下出“先手棋”。2022年,中國(guó)(溫州)數(shù)安港開園,直面數(shù)據(jù)不能共享、不敢共享、不愿共享“三不”難題,在全國(guó)數(shù)據(jù)要素市場(chǎng)化改革中探路先行。
兩年來,改革通過構(gòu)建數(shù)據(jù)安全合規(guī)體系、司法保障體系等方面數(shù)據(jù)基礎(chǔ)制度,確保流通交易合規(guī),破解“不敢共享”難題;通過構(gòu)建數(shù)據(jù)金庫(kù)、聯(lián)合計(jì)算平臺(tái)、安全可信數(shù)據(jù)空間、公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)域等數(shù)據(jù)基礎(chǔ)設(shè)施,為流通交易全過程提供技術(shù)保障,破解“不會(huì)共享”難題;通過構(gòu)建從數(shù)源歸集到數(shù)據(jù)產(chǎn)品流通交易的全鏈條產(chǎn)業(yè)生態(tài),營(yíng)造成熟的數(shù)據(jù)市場(chǎng),破解“不愿共享”難題。
開園至今,數(shù)安港已落地企業(yè)311家,發(fā)布數(shù)據(jù)產(chǎn)品344個(gè),成交6.6億元;與國(guó)內(nèi)七大數(shù)交所簽署戰(zhàn)略合作協(xié)議,設(shè)立了10個(gè)國(guó)家級(jí)數(shù)據(jù)安全實(shí)驗(yàn)室與創(chuàng)新基地。“隨著數(shù)據(jù)交易市場(chǎng)的開放與完善,其訓(xùn)練出的大模型將為社會(huì)提供更精細(xì)化的服務(wù),浙江數(shù)字經(jīng)濟(jì)將迎來新的飛升?!鄙暧郎f。