寧波材料所在基于多語言大模型的事件分析方面取得進(jìn)展
國(guó)際熱點(diǎn)事件頻繁爆發(fā),針對(duì)熱點(diǎn)事件的信息報(bào)道繁雜,導(dǎo)致信息分析的難度日益增加。傳統(tǒng)的人工信息分析不僅耗時(shí)長(zhǎng)、成本高,還難以應(yīng)對(duì)多語言、多文化背景下的信息變化。大模型技術(shù)的出現(xiàn)和廣泛使用,為信息分析人員在極短時(shí)間內(nèi)深入分析與處理海量多語言數(shù)據(jù)、迅速掌握重要主題事件全貌提供了可能。因此,如何利用大模型技術(shù)在錯(cuò)綜復(fù)雜的國(guó)際熱點(diǎn)議題中生成高質(zhì)量的專題分析報(bào)告,已成為信息分析領(lǐng)域亟待攻克的重要課題。
中國(guó)科學(xué)院寧波材料技術(shù)與工程研究所計(jì)算機(jī)視覺技術(shù)團(tuán)隊(duì)長(zhǎng)期專注于大模型應(yīng)用的前沿研究,團(tuán)隊(duì)圍繞情報(bào)挖掘、深度分析到輔助決策的全鏈條研究,開發(fā)了多個(gè)具有實(shí)用價(jià)值的智能化解決方案。近期,團(tuán)隊(duì)提出了一種基于知識(shí)圖譜驅(qū)動(dòng)的多語言專題事件分析報(bào)告生成方法(“NimteRAG”大模型),有效攻克了傳統(tǒng)情報(bào)分析方法在處理海量多語言數(shù)據(jù)時(shí)面臨的語義關(guān)聯(lián)復(fù)雜、上下文感知缺失以及泛化能力受限等難題。其核心關(guān)鍵技術(shù)包括:采用哈希增強(qiáng)圖結(jié)構(gòu)索引,將多語言文本映射為緊湊的哈希編碼,以優(yōu)化存儲(chǔ)并加速檢索與關(guān)聯(lián)分析;設(shè)計(jì)雙層次檢索模式,靈活處理具體實(shí)體查詢和抽象概念查詢,生成層次清晰、連貫性強(qiáng)的報(bào)告;運(yùn)用知識(shí)注入的增量學(xué)習(xí)方法,在保持模型通用知識(shí)的基礎(chǔ)上,有效學(xué)習(xí)并融入專題事件特定知識(shí),顯著增強(qiáng)了模型的泛化性能。生成的報(bào)告內(nèi)容全面深入,包括事件整體情況的詳細(xì)梳理(涵蓋事件演化流程、各子事件及關(guān)鍵拐點(diǎn))、事件的綜合分析(從多角度、多維度出發(fā),兼顧不同立場(chǎng)進(jìn)行深入分析)以及事件發(fā)展預(yù)測(cè)(基于推理預(yù)判,展望事件的未來走向)。
12月27日,在國(guó)防科技大學(xué)外國(guó)語學(xué)院承辦的首屆“智擎杯”信息分析處理大賽中,課題組成員張曉露、谷曉靜、許根、王益杰憑借自主研發(fā)的“NimteRAG”大模型從全國(guó)124支參賽隊(duì)伍中脫穎而出,在專題事件分析報(bào)告智能生成關(guān)鍵技術(shù)賽道上獲得全國(guó)第五名。該項(xiàng)目獲得了寧波市“科創(chuàng)甬江2035“關(guān)鍵技術(shù)突破計(jì)劃(2024Z120)等的支持。

技術(shù)思路框架圖
(機(jī)器人與智能制造裝備技術(shù)實(shí)驗(yàn)室?張曉露)
?