?在2025世界人工智能大會上,科大訊飛展出的“星火知識庫”成為行業關注的焦點,這一創新成果不僅展示了中國人工智能技術的最新進展,更揭示了當前大模型發展面臨的核心挑戰——高質量數據集的稀缺與建設難題。隨著人工智能技術進入深水區,央國企在推進智能化轉型過程中遭遇“數據瓶頸”日益凸顯,如何破解這一困局,成為關乎國家數字經濟發展戰略的關鍵命題。
央國企大模型落地困境:高質量數據成核心瓶頸
當前,央國企在大模型應用落地過程中遭遇的困境具有典型性。一方面,行業大模型對數據的需求極為多元且專業,不同業務部門對模型場景數據的需求差異顯著,這大大增加了數據處理和管理的復雜度。以能源行業為例,勘探開發、煉化生產、銷售服務等不同環節產生的數據類型、格式和專業術語迥然不同,傳統的數據處理方法難以滿足這種高度專業化的需求。另一方面,在行業大模型的實際建設中,構建和采買數據缺乏統一衡量標準,不同業務系統、不同數據源的數據完整性和準確性參差不齊,直接影響了模型的訓練效果和預測準確性。研究顯示,一般來說,10%的臟數據可造成30%的GPU資源浪費,同時導致模型調試周期延長50%,效果下降10%,這種資源浪費對于追求高效運營的央國企而言尤為致命。
國務院國資委規劃發展局副局長胡武婕認為,“隨著基礎模型開源態勢的形成,各方在算力和模型算法層面的差距正在不斷收窄,數據要素價值更加凸顯,已成為人工智能競爭的核心領域。”這一判斷精準揭示了當前人工智能發展的新趨勢——在算法和算力逐漸趨同的背景下,高質量數據集已成為決定AI應用成敗的關鍵要素。然而,央國企在數據治理方面面臨特殊挑戰:歷史積累的龐雜語料分散在各個業務系統中,價值數據難以有效提取;通用大模型在專業場景中存在知識幻覺、專業性不足等問題;缺乏統一標準導致數據質量評估困難,這些問題共同構成了央國企智能化轉型道路上的“數據鴻溝”。
科大訊飛知識工程平臺:破解數據困局的“利器”
面對這一行業痛點,科大訊飛推出的知識工程平臺提供了一套系統化解決方案。該平臺的創新之處在于,它并非簡單的數據處理工具,而是構建了一個從多源語料獲取、稀缺數據合成、高質量數據加工到模型訓練的完整生態閉環。其核心技術突破體現在全自動化的知識構建能力上——通過多教師模型混合蒸餾、知識融合增強等前沿技術,實現了行業專業知識的自動合成,無需依賴傳統昂貴且低效的人工標注流程。實際應用數據顯示,該平臺可將數據構建成本降低90%,知識構建周期縮短50%,同時使模型效果提升15%,這種效率與質量的雙重突破,為行業大模型的快速落地提供了可能。
在技術架構層面,訊飛知識工程平臺展現出三大差異化優勢。首先是其強大的多元異構數據處理能力,平臺內置的高精度語音轉寫和OCR識別引擎,能夠高效處理央國企常見的非結構化數據,如會議錄音、掃描文件、工程圖紙等,解決了傳統數據處理流程中的“卡脖子”環節。其次是建立了全方位的數據質量評估體系,平臺可結合傳統大數據質量要求和人工智能模型訓練應用要求,輸出《面向人工智能的數據集質量通用評估方法總體要求》,將標準落地為可執行的質量控制節點,從完整性、規范性、準確性、及時性、一致性等多個維度構建了數據質量的“防火墻”。尤為關鍵的是,平臺還通過正向追蹤和反向溯源機制,確保了知識構建過程的透明性和可解釋性,這一設計有效防范了行業大模型常見的知識“幻覺”問題,同時也規避了版權合規風險。
平臺操作界面的易用性設計同樣值得稱道。針對央國企技術團隊的特點,訊飛知識工程平臺采用零代碼畫布式建模工具,用戶通過簡單的組件拖拽即可自定義知識加工流程,節點參數配置界面支持精細化調整,而斷點調試功能則確保了處理結果的可控性。這種“低門檻、高靈活”的設計理念,極大降低了人工智能技術的應用難度,使業務專家無需深入掌握編程技能也能參與知識構建工作,真正實現了“業務驅動”的智能化轉型。
本次WAIC大會期間,科大訊飛所展示的“星火知識庫”便充分展現了其在企業知識管理領域的創新突破,方案提供從知識創作、知識加工、知識管理到知識共享、知識應用的全生命周期閉環管理,可顯著提升知識加工效率、檢索效率和問答體驗,實現企業知識的高效生產、有效沉淀、快速應用。
中石油昆侖大模型落地:數據驅動的行業AI價值
中國石油的實踐案例生動詮釋了訊飛知識工程平臺的價值。作為能源行業的龍頭企業,中石油擁有海量的勘探開發、煉化生產、經營管理數據,但如何將這些數據轉化為大模型的“營養”,曾是企業面臨的主要障礙。
通過部署訊飛知識工程平臺,中石油成功構建了覆蓋油氣全產業鏈的高質量數據集,并以此訓練出專屬的“昆侖大模型”。該模型已成功應用于57個業務場景:其專業領域的應用范圍從勘探延伸至煉化、銷售、裝備制造等。通用領域推出“員工助手”、“行業大家”、“智能油伴”等專業應用,其中“員工助手”覆蓋科研、辦公等場景,可助力開啟“AI+”高效辦公模式;“行業大家”應用助力從業者提升技能;“智能油伴”以更智能、擬人化交互提升客戶服務體驗等,實現了成本降低30%、周期縮短50%、效果提升30%的顯著效益。
昆侖大模型并非空中樓閣,而是緊密圍繞能源化工行業的痛點和需求,打造了一系列具有行業特色的深度應用場景。無論是賦能地質研究、生產優化,還是提升辦公效率、客戶服務水平,昆侖大模型正逐步滲透到業務與管理的各個環節,這種基于企業自身數據訓練的大模型真正貼合了行業專業需求,實現了AI技術與實體經濟的深度融合。
從中石油等多家央國企業項目成功實踐,訊飛進一步沉淀了豐富的行業知識構建模板和成熟的DREAM大模型構建框架——Define場景定義、Review資源審視、Extract數據提取、Algorithm模型訓練、Measure效果測試。這一方法論不僅是一套技術流程,更代表了“場景驅動、數據為先”的行業大模型建設理念。目前,該框架已在多家央國企項目中得到驗證,形成了覆蓋能源、金融、制造等多個行業的知識構建模板,為后來者提供了可復制的成功路徑。
站在新一輪科技革命和產業變革的歷史節點,高質量數據集建設已成為推動人工智能與實體經濟深度融合的關鍵基礎設施。科大訊飛知識工程平臺的創新實踐,為破解央國企大模型落地難題提供了可行路徑,其價值不僅在于技術突破,更在于構建了一套從數據治理到模型應用的全生命周期解決方案。
隨著數字經濟深入發展,數據要素的市場價值將持續釋放,而那些能夠率先構建高質量數據資產、掌握智能技術核心能力的央國企,將在未來的產業競爭中占據制高點。從這個意義上說,解決數據質量問題不僅是一個技術課題,更是關乎國家數字經濟戰略實施和產業競爭力的重大命題。科大訊飛的探索為行業提供了有益啟示:只有打通數據—知識—智能的轉化通道,才能真正釋放人工智能的變革力量,推動千行百業實現質的飛躍。
(責任編輯:康玲華)
???????????????????????????????????????????????????????運營商財經(官方微信公眾號yyscjrd)—— 主流財經網站,一家全面覆蓋科技、金融、證券、汽車、房產、食品、醫藥、日化、酒業及其他各種消費品網站。