隨著大數據技術的迭代發展和智能化戰爭形態的加速演進,大數據已悄然來到3.0時代。當今世界發生的幾場戰爭和沖突更加深刻地表明,大數據已經“無處不在、無時不有、無人不用”。顯然,數智賦能已成為軍事變革的“關鍵變量”之一。
聚焦人工智能時代大數據資源構建與共享、人工智能系統安全治理、可信數據空間建設、智能算力網絡關鍵技術研究、數智領域應用新形態等前沿問題,由軍事科學院主辦,國防科技大學、浙江大學、北京理工大學、山東大學、西交網絡空間安全研究院協辦的第六屆軍事大數據論壇,于5月15至16日在杭州舉行。
記者就軍事大數據推動新質戰斗力建設與發展相關話題,采訪了軍事科學院軍事科學信息研究中心、北京理工大學計算機學院、哈爾濱工業大學計算機學院、電子科技大學計算機科學與工程學院的曹云波、毛先嶺、王宏志、夏琦、譚玉珊等幾位專家。
記者:在智能化戰爭中,大數據與大模型如何深度融合以支撐指揮決策、裝備升級及新型作戰樣式?有哪些關鍵技術瓶頸需要突破?
曹云波:從指揮決策層面來看,大數據為指揮決策提供了海量的、多源異構的信息基礎,大模型則具備強大的數據處理、分析和推理能力。在作戰過程中,大模型可以融合歷史數據,綜合分析實時情報和環境數據等信息,快速評估戰場態勢變化,為指揮員及時提供決策建議,從而提高指揮決策的效率和準確性。對于裝備建設而言,大數據與大模型的結合可以顯著增強武器系統的智能化水平。比如,通過數據記錄裝備在多種環境下的實際運行狀況、性能參數等信息,能夠通過模型輔助分析來優化其在復雜戰場環境中的性能表現。此外,還可以通過具身智能等方式將裝備接入智能作戰平臺,提高其自主作戰能力。
記者:數據成為驅動人工智能發展的核心要素,在國家安全與國防建設領域,應優先構建哪些基礎能力?
毛先嶺:從長時間尺度來看,數據是人工智能發展的主要驅動力量,算力和模型,都只是輔助力量。正如先有石油,才有發動機的發明,進而是工業革命的發生。發動機只是從石油中獲取能力的工具。對于人工智能的發展,同樣,先有數據,后有模型和算力,發展模型和算力的目的,只是為了更好地從數據中獲得能力。因此,如何快速收集、整合文本、圖像、傳感器信息等不同類型的數據,并讓這些數據與體現模型和算力的業務系統良好適配,是人工智能發展的核心。
對國防安全而言,未來戰場必然要求實時融合衛星圖像、通信情報、氣象數據、戰場態勢數據等,并高效作出決策。這迫切要求建立三個方面核心能力:數據整合網——打破數據壁壘,像拼樂高一樣快速組合各類數據;智能處理鏈——開發實時分析決策平臺,讓AI自己篩選關鍵信息,高效輔助決策;安全防護盾——在數據流動的每個環節加密,防止被敵方竊取或篡改。只有把這些基礎能力像修路架橋一樣先建好,才能讓AI在國防領域真正跑起來、用得好。
記者:軍事領域構建高可信智能數據資源體系時,如何解決多源異構數據的“碎片化”與“欺騙性”問題?需突破哪些關鍵技術以保障數據質量可信與算法決策可靠?
王宏志:軍事數據在應用中受數據碎片化和真實性問題困擾,可以采取“雙輪驅動”的方法解決這個問題。
第一個“輪子”是構建統一的數據標準和頂層架構。給每類數據集建立規則,讓大家按照統一規則整理接入數據,數據管理就能井井有條。就像士兵們使用同一種語言交流,數據入庫和接入會變得規范有序。第二個“輪子”是研發基于人工智能的新型數據整合技術。軍事數據來源多樣、真假混雜。利用人工智能這個“超級大腦”,發現數據關聯、整合分散數據、讓不同系統的數據和諧共處,才能為軍事決策提供有效的服務。
軍事數據面臨真實性的挑戰,需要建立多維度信息鑒真體系,以確保數據可信性。為提高軍事數據質量和算法決策可靠性,應設計數據質量評估模型,打造安全高效的“供應鏈”;開發數據清洗系統,讓數據更干凈準確;提出“決策容錯”算法架構,提高系統對劣質數據的承受力等。這些方法能讓軍事決策系統更穩健。
記者:在軍事數據共享中,如何構建“可信數據生態”以破解數據“不敢共享、不能共享”的局面?
夏琦:在軍事領域,大家在共享數據的時候,常常會碰到3個問題。一是“不能”。數據擁有方和使用方沒辦法實時了解對方的情況,數據無法充分共享。二是“不信”。數據共享的各方互不信任,無法得知數據的最終用途,沒有采取足夠的保護措施。三是“不愿”。目前在缺乏健全的評價反饋機制的前提下,相關方失去主動共享數據的積極性。
為解決好上述這“三不”問題,需要構建一個軍事數據可信共享架構。首先,建設數據網格去中心化機制。搭建一條數據高速公路,把實時數據目錄和調用機制連接到網絡上。通過這條高速公路,數據擁有方和使用方就能直接“見面”交流,解決數據“不能”共享的問題。第二,利用基于智能合約的數據安全沙箱來檢查數據的進出。這好比給數據裝了一個“安檢門”,只有經過檢查,確保安全的數據才能進出。這樣一來,數據是可用的,但又只能在“安檢區”內嚴格按規定使用,無法濫用、無法帶出,不用擔心數據泄露,從而解決數據“不敢”共享的問題。第三,利用多層區塊鏈網給用戶建立一個獨一無二的數字身份。這就像每人都有一個專屬的身份證,賦予個體數據共享使用權益,記錄相關方數據共享情況。在數據共享過程中,系統不僅會自動檢查,還能全程追溯,就像給數據共享過程安裝一個全方位監控器,從而解決數據“不信”的問題。最后,基于區塊鏈上的記錄信息設立一個評價機制。通過該評價機制,那些愿意共享的用戶會提供更優質數據資源,擁有更多共享機會,獲得更高評價。這樣一來,軍事數據共享就可以形成一個良性循環,從而解決數據“不愿”的問題。
記者:面向未來軍事智能化發展需求,如何構建高質量軍事語料數據?
譚玉珊:構建高質量軍事語料數據,就像為AI打造一本“軍事百科全書”,需要抓住4個核心要點。一是內容要專。數據必須體現軍事特色,比如作戰術語、戰術案例等。二是覆蓋要廣。既要涉及軍事領域文本、圖像數據,又要包括視頻、語音等多類型信息。三是篩選要準。剔除無效或低質數據,精煉保留能反映日常戰備和軍事行動的真實、高價值數據。四是規模要大。數據量需足夠支撐AI模型,像人類大腦一樣深度學習。
當前,對于世界各軍事強國來說,軍事語料建設都是一項龐大的工程,還有很多工作亟待推進:完善語料規范研究,通過統一認識、統一標準加速語料質量提升;創新數據空間的全軍協調機制,調度不同“保險箱”的數據共同實現語料建設的規模化、多樣化;突出智能技術賦能思想,聯合軍事理論專家、技術專家、數據專家對語料技術瓶頸開展聯合攻關,顯著提升機器對數據軍事特征的智能理解和自動識別;平衡“安全”與“應用”,實現語料數據按需分發,從而最大程度發揮語料數據的軍事運用價值。