2月13日凌晨,市大數(shù)據(jù)公司傳來喜訊,成功完成DeepSeek系列大模型的本地化全流程部署與調(diào)試,成為我市首個實現(xiàn)七百億參數(shù)大模型(DeepSeek-R1-70B)自主化落地的單位。這一成果的取得,離不開市數(shù)管局、市國資委的大力支持協(xié)調(diào),是公司研發(fā)攻堅小組連續(xù)辛勤付出的結(jié)果,展示了國有企業(yè)的技術(shù)力量和攻堅克難的戰(zhàn)斗力。
在項目啟動之初,市政府主要領(lǐng)導(dǎo)親自部署,公司充分發(fā)揮技術(shù)、人才和團隊優(yōu)勢,組建了一支具備分布式訓(xùn)練框架、模型壓縮及推理優(yōu)化等領(lǐng)域?qū)I(yè)知識和實踐經(jīng)驗的十余人攻堅小組,迅速響應(yīng),加快大模型的本地化部署,積極探索deepseek+場景。
去年12月DeepSeek-V3開源模型發(fā)布后,公司精心謀劃,安排研發(fā)團隊基于Transformer-XL架構(gòu),完成了R1-7B輕量級模型的本地化適配工作。節(jié)后首日,又成功實現(xiàn)了低延遲推理驗證。為突破算力瓶頸,在市數(shù)管局的協(xié)調(diào)支持下,團隊采用Ollama框架與Open WebUI構(gòu)建混合架構(gòu),并通過INT4量化技術(shù),將R1-70B模型參數(shù)壓縮至4-bit精度。在此基礎(chǔ)上,團隊在保障模型性能97%以上的基礎(chǔ)上,顯著降低了顯存占用(降低60%),并將單卡推理效率提升了3倍。經(jīng)過3個晝夜的連續(xù)奮戰(zhàn),該模型于2月13日凌晨5點正式上線。
上線后,攻堅小組基于混合精度訓(xùn)練(AMP)技術(shù),于2月16日發(fā)布了FP16半精度版本的R1-70B模型。結(jié)合動態(tài)梯度裁剪與自適應(yīng)學(xué)習(xí)率策略,該模型在政務(wù)知識問答基準(zhǔn)測試中的表現(xiàn)顯著提升:準(zhǔn)確率(Accuracy)達(dá)到92.7%,精確率(Precision)突破89.5%,較初始版本提升了15個百分點。
目前,該模型已率先應(yīng)用于政務(wù)服務(wù)領(lǐng)域,依托市數(shù)管局政務(wù)服務(wù)“云窗口2.0”,實現(xiàn)政策咨詢、企業(yè)服務(wù)等場景的秒級響應(yīng),為企業(yè)和群眾提供更加便捷、精準(zhǔn)、高效的服務(wù)。
下一步,公司將在相關(guān)主管部門安排下,以DeepSeek系列模型適配上線為契機,持續(xù)推動DeepSeek全系列模型在就業(yè)創(chuàng)業(yè)、智能制造、醫(yī)療健康、社會治理等領(lǐng)域的廣泛應(yīng)用,協(xié)助開展DeepSeek大模型應(yīng)用培訓(xùn)和技術(shù)推廣,讓各部門深入了解大模型的功能和應(yīng)用場景,掌握利用大模型提升工作效率和服務(wù)質(zhì)量,為全市產(chǎn)業(yè)轉(zhuǎn)型升級和城市治理能力提升提供高效、安全的技術(shù)支撐,推動全市經(jīng)濟社會高質(zhì)量發(fā)展。