摘要:近日,南京農業(yè)大學信息管理系喻雪寒團隊在圖書情報領域權威期刊《 大學圖書館學報 》(2025年第2期)發(fā)表題為《 融合旋轉式位置編碼與圖遞歸檢索方法的書院事件抽取研究 》的學術論文。該
近日,南京農業(yè)大學信息管理系喻雪寒團隊在圖書情報領域權威期刊《大學圖書館學報》(2025年第2期)發(fā)表題為《融合旋轉式位置編碼與圖遞歸檢索方法的書院事件抽取研究》的學術論文。該研究針對古籍文獻中長文本處理難、事件論元嵌套復雜等問題,創(chuàng)新性地融合旋轉式位置編碼(RoFormerV2)與圖遞歸檢索(GPLinker)方法,對《中國書院辭典》進行深度挖掘,成功構建了一套高效的事件抽取模型,為傳統(tǒng)文化知識的數字化整理提供了新的技術路徑。

《中國書院辭典》作為記載唐代至清代1600余所書院的重要史料,蘊含了豐富的創(chuàng)辦、修繕、講學及管理制度等信息。然而,傳統(tǒng)的基于BERT等絕對位置編碼的預訓練模型,受限于512個字符的輸入上限,在處理動輒上千字的古籍詞條時往往被迫截斷,導致關鍵信息丟失。此外,古籍文本中普遍存在一詞多義及事件論元嵌套現象,嚴重制約了信息抽取的準確率。
為解決上述痛點,研究團隊提出了全新的技術解決方案。一方面,引入基于旋轉式位置編碼的RoFormerV2模型,通過旋轉矩陣對向量進行空間變換,使模型能夠在不顯著增加計算成本的前提下,有效捕捉超長文本中的相對位置信息與語義關聯,具備了優(yōu)異的長文本外推能力。另一方面,設計了圖遞歸檢索模塊GPLinker,利用GlobalPointer模型將事件類型、觸發(fā)詞與論元角色作為完全圖的節(jié)點,通過遞歸搜索策略精準關聯同一事件內的要素,巧妙化解了論元嵌套與誤識別難題。
實驗結果顯示,該模型在《中國書院辭典》數據集上的F1值達到了89.43%,顯著優(yōu)于傳統(tǒng)的BERT-CRF等基準模型。特別是在處理超過512字的長文本時,模型性能依然保持穩(wěn)定提升,證明了其在古籍數字化處理中的實用價值。
基于這一高精度模型,研究團隊進一步對抽取出的8740條事件數據進行可視化分析,揭示了明清書院發(fā)展的深層規(guī)律。研究發(fā)現,明清兩代書院在空間分布上極不平衡,呈現出由江南、東南沿海向內陸及東北、西北遞減的趨勢;在建設力量上,雖然始終保持“官辦為主、民辦為輔”的格局,但清代相較于明代,地方官員(特別是知縣)的參與度大幅提升,且出現了鹽商、外籍傳教士等新興辦學力量,催生了兼具中西特色的教會書院。
該研究成果不僅為古籍文獻的智能挖掘提供了可復制的技術范式,也為歷史文化研究者理解中國古代書院的時空演變與治理結構提供了堅實的數據支撐。
聲明:
①文獻來自知網、維普、萬方等檢索數據庫,說明本文獻已經發(fā)表見刊,恭喜作者.
②如果您是作者且不想本平臺展示文獻信息,可聯系學術顧問予以刪除.