成人免费AV网址|亚洲手机免费在线|最新av网址发布|67194成人草|在线国产视频91|一区二区无码竹菊|91国产精品综合|日本熟女综合视频|国产免费强奸视频|最近中文字幕99

長三角經(jīng)濟圈

首頁>長三角經(jīng)濟圈>長三角觀察

喂飽人工智能,浙企有“料”

  原標(biāo)題:電商數(shù)據(jù)、影視作品、網(wǎng)絡(luò)文學(xué)……都是幫助AI成長的營養(yǎng)

  喂飽人工智能,浙企有“料”

  OpenAI又“炸場”了。近日,具備“聽、看、說”出色本領(lǐng)的“GPT-4o”亮相,新模型能夠處理50種不同的語言,還能讀取人的情緒。僅僅兩日后,OpenAI宣布與社交網(wǎng)絡(luò)Reddit建立合作伙伴關(guān)系,這個被稱為“美國貼吧”的平臺內(nèi)容,將被引入ChatGPT和其他產(chǎn)品中。

  將兩條信息連起來看,當(dāng)大眾驚嘆于AI的訓(xùn)練速度時,不少業(yè)內(nèi)人士已嗅到一絲危機:全能,意味著需要更強大的語料庫來訓(xùn)練AI,而優(yōu)質(zhì)的AI語料已經(jīng)越來越稀缺。

  AI語料,簡單來說,就是用于訓(xùn)練和優(yōu)化人工智能模型的數(shù)據(jù)集合。根據(jù)人工智能研究機構(gòu)Epoch的分析,在2026年前,科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)。

  數(shù)字經(jīng)濟發(fā)達(dá)的浙江,是國內(nèi)優(yōu)質(zhì)AI語料資產(chǎn)庫存區(qū)域之一。如何充分發(fā)揮AI語料的存量優(yōu)勢?應(yīng)對AI語料短缺的預(yù)期,浙江如何先發(fā)布局?

  優(yōu)質(zhì)中文語料是稀缺資源

  在AI大模型技術(shù)路徑逐漸清晰、各方搶占算力迭代產(chǎn)品的當(dāng)下,越來越多的業(yè)內(nèi)人士重新將目光投向驅(qū)動模型生成的“燃料”——語料。

  “大模型就像初生的孩子,教它學(xué)習(xí)、成長的課本就是AI語料,編纂教材的過程就是構(gòu)建語料庫的過程?!焙贾莩鞘写竽X有限公司總經(jīng)理申永生形象比喻。目前,我國10億參數(shù)規(guī)模以上的大模型數(shù)量已超100個,每一個都“嗷嗷待哺”,更優(yōu)質(zhì)更豐富的語料資源,才能支持其更新迭代。未來,AI語料將是行業(yè)爭奪的新戰(zhàn)場。

  城市大腦即是通過“消化”“吸收”優(yōu)質(zhì)語料,形成分析研判能力,不斷提升社會治理與服務(wù)能力?!耙环矫?,我們從各類用戶反饋端獲取語料,比如12345、留言箱、辦事窗口等信息,通過學(xué)習(xí)百姓與‘端’的互動數(shù)據(jù),讓城市大腦更智能;另一方面,政府信息公開的數(shù)據(jù)也是語料來源之一,基于這類天然可抓取的數(shù)據(jù),我們能提供匯總更多公共服務(wù)的信息?!鄙暧郎榻B。

  盡管有雙重途徑獲取語料,但存量資源短缺的事實也擺在眼前。眾多大模型“饑腸轆轆”,但面對海量數(shù)據(jù)卻不能“饑不擇食”,因為原始數(shù)據(jù)需要經(jīng)過層層標(biāo)注與篩選,才會變成有價值的語料。

  中文優(yōu)質(zhì)語料的供給,更迫在眉睫?!爸袊竽P桶l(fā)展要獲得突破,必然依賴于中文優(yōu)質(zhì)語料庫的建立?!鄙暧郎治觯壳岸鄶?shù)大模型的數(shù)據(jù)訓(xùn)練多以英文為基礎(chǔ),如在ChatGPT的訓(xùn)練數(shù)據(jù)中,英文語料占比超92.6%,中文語料占比卻不足千分之一。語言的壁壘、流通的受限,使得中文優(yōu)質(zhì)語料在業(yè)內(nèi)成為“香餑餑”。

  將語料數(shù)據(jù)化為生產(chǎn)力

  在浙江,優(yōu)質(zhì)AI語料的存量優(yōu)勢明顯。

  以阿里巴巴為代表的電商企業(yè),擁有產(chǎn)品材料、客戶互動數(shù)據(jù)、電商直播素材等大量電商相關(guān)AI語料;商湯科技、??低暤绕髽I(yè),在AI視頻識別方面積累了大量可用數(shù)據(jù);眾多MCN公司擁有海量短視頻素材;杭州的網(wǎng)絡(luò)文學(xué)作家村、之江編劇村等則是優(yōu)質(zhì)文本語料的儲藏地……

  眼下,擁有語料“富礦”的浙企,已在暗自發(fā)力,利用自身擁有的語料資產(chǎn),開發(fā)和優(yōu)化自研工具庫,拓展行業(yè)AIGC工具的應(yīng)用場景。

  作為國內(nèi)電視劇行業(yè)的龍頭公司,華策集團正在探索將語料數(shù)據(jù)變?yōu)閯?chuàng)作生產(chǎn)力。企業(yè)擁有超5萬小時的影視素材,以及影視劇本、IP評估報告、宣發(fā)材料等文本素材,這些都是制作AI語料的原料?;趯I(yè)語料,華策集團AIGC應(yīng)用研究院訓(xùn)練并開發(fā)了一整套“影視劇本智能創(chuàng)作輔助系統(tǒng)”,集成了編劇助手、劇本評估、視頻檢索等多項功能。

  “影視級別語料不僅質(zhì)量高,而且具有中華傳統(tǒng)文化特色,用影視語料訓(xùn)練出的大模型克服了海外大模型國外元素多或質(zhì)量低下的問題?!比A策集團AIGC應(yīng)用研究院副院長沈雄介紹,在高質(zhì)量語料的基礎(chǔ)上,華策自研的“有風(fēng)”大模型3分鐘內(nèi)就能完成一部IP作品的初篩,30分鐘內(nèi)能精確評估百萬字作品內(nèi)容,這樣的體量過去依靠人工需要一周以上的時間,極大地提高了工作效率。

  另一家金融浙企同花順,擁有企業(yè)十幾年積累的自身數(shù)據(jù)及市場的公開金融數(shù)據(jù),這些數(shù)據(jù)涵蓋了股票、基金、債券等各種證券類型,囊括了財經(jīng)領(lǐng)域的公告、新聞、研報等九大類語料,預(yù)訓(xùn)練金融語料達(dá)到了萬億級Tokens。

  今年1月,同花順發(fā)布大模型問財HithinkGPT,成為市場上唯一集金融查詢、投資咨詢、資訊分析以及事件點評于一體的大模型。“專業(yè)的AI語料促進(jìn)了大模型技術(shù)和業(yè)務(wù)的創(chuàng)新,為金融領(lǐng)域提供了研究和開發(fā)的基礎(chǔ)資源?!逼髽I(yè)相關(guān)負(fù)責(zé)人表示,目前,同花順AI開放平臺可面向客戶提供智能金融問答、智慧政務(wù)平臺、數(shù)字虛擬人等多項AI產(chǎn)品及服務(wù)。

  探路數(shù)據(jù)交易體系

  隨著AI語料價值凸顯,眾多問題也浮出水面。今年初,《紐約時報》起訴OpenAI及其投資人微軟公司,指控二者未經(jīng)授權(quán)使用其數(shù)百萬篇文章訓(xùn)練大模型,打響了語料維權(quán)“第一槍”。

  采訪中,不少企業(yè)表示,目前企業(yè)的語料數(shù)據(jù)主要用于開發(fā)和優(yōu)化自研工具庫,尚未與其他公司達(dá)成商業(yè)合作。“語料數(shù)據(jù)產(chǎn)品交易潛力巨大,但存在諸多不確定性,企業(yè)的擔(dān)憂在所難免?!鄙暧郎治?,除了版 權(quán)盜用的法律問題和訓(xùn)練模型存在的道德風(fēng)險、價值觀隱患,AI語料真正走向市場,最根本的是建立健全交易平臺和機制。

  “這正是浙江搶占先機的重要方向。”申永生認(rèn)為,浙江已在數(shù)字經(jīng)濟領(lǐng)域占領(lǐng)高地,在語料儲備較充足的基礎(chǔ)上,可以從建立數(shù)據(jù)交易所開始嘗試,探索一條語料交易的新路。對此,浙江已下出“先手棋”。2022年,中國(溫州)數(shù)安港開園,直面數(shù)據(jù)不能共享、不敢共享、不愿共享“三不”難題,在全國數(shù)據(jù)要素市場化改革中探路先行。

  兩年來,改革通過構(gòu)建數(shù)據(jù)安全合規(guī)體系、司法保障體系等方面數(shù)據(jù)基礎(chǔ)制度,確保流通交易合規(guī),破解“不敢共享”難題;通過構(gòu)建數(shù)據(jù)金庫、聯(lián)合計算平臺、安全可信數(shù)據(jù)空間、公共數(shù)據(jù)授權(quán)運營域等數(shù)據(jù)基礎(chǔ)設(shè)施,為流通交易全過程提供技術(shù)保障,破解“不會共享”難題;通過構(gòu)建從數(shù)源歸集到數(shù)據(jù)產(chǎn)品流通交易的全鏈條產(chǎn)業(yè)生態(tài),營造成熟的數(shù)據(jù)市場,破解“不愿共享”難題。

  開園至今,數(shù)安港已落地企業(yè)311家,發(fā)布數(shù)據(jù)產(chǎn)品344個,成交6.6億元;與國內(nèi)七大數(shù)交所簽署戰(zhàn)略合作協(xié)議,設(shè)立了10個國家級數(shù)據(jù)安全實驗室與創(chuàng)新基地?!半S著數(shù)據(jù)交易市場的開放與完善,其訓(xùn)練出的大模型將為社會提供更精細(xì)化的服務(wù),浙江數(shù)字經(jīng)濟將迎來新的飛升。”申永生說。

聲明:本媒體部分圖片、文章來源于網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系刪除:025-84707368,廣告合作:025-84708755。
1356
收藏
分享