摘要:摘 要:為了準確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領域信息抽取。本文以教育領域為例,修改GATE的中文抽取插件Lang_chinese,精準快速地抽取出該領域的學校名、專業
摘 要:為了準確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領域信息抽取。本文以“教育”領域為例,修改GATE的中文抽取插件Lang_chinese,精準快速地抽取出該領域的學校名、專業名、人名,為進一步提高中文信息抽取的準確率和召回率提供了研究基礎。
關鍵詞:GATE;領域抽取
隨著現代通信和傳播技術的不斷發展,信息巨量生產、高速傳播,人們被大量洶涌而來的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準確地找到所需要的信息成為當前信息處理的研究重點。
1 信息抽取與GATE框架
1.1 信息抽取。信息抽取(Information Extraction,簡稱IE)是指從文本中直接抽取用戶感興趣的信息,以結構化的形式存入數據庫中,可供用戶直接使用或進行下一步的信息處理[1]。信息抽取是領域相關的,只能抽取特定領域或某些范圍內有限種類的信息。當有大量的文本需要閱讀處理的時候,信息抽取可以高效、精準地提取出所需要的領域信息。
1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國Sheffield大學開發的,應用非常廣泛的開源性自然語言處理框架。GATE框架為信息抽取提供了基本平臺[2]。針對英文信息抽取,已經開發了基于該框架的應用實例插件ANNIE。ANNIE在英文信息抽取的準確率和召回率方面均已達到較高水準,并被一些商業公司使用,如惠普、大英電信等。
2 基于GATE的中文領域信息抽取
2.1 GATE中自帶的中文信息抽取插件。GATE平臺除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設計比較簡單。以中文插件Lang_Chinese的默認設置對文本進行抽取時,如希望能抽取出需要的領域信息,如在“教育”領域希望抽取出“學校”等組織單位,“校長”等人員信息,則結果不能讓人滿意。
分析其中的原因,主要有以下幾點:(1)中文分詞處理不夠專業。(2)缺乏針對專業領域構造的中文詞表庫。(3)GATE中自帶的JAPE抽取規則,多是針對英文命名實體識別編寫,對中文支持不夠,導致相當部分的中文不能被識別到。
2.2 改進的GATE中文領域信息抽取。本研究選取Gate7.1為開發平臺,針對其中文信息抽取插件Lang_Chinese的不足,面向“教育”領域,研究了改進的方法。下面就其中的關鍵技術予以介紹:(1)文檔預處理。本研究采用中科院計算技術研究所開發的ICTCLAS分詞系統對文檔進行分詞預處理。本研究將分詞后的文檔刪去詞性信息,將分開的詞組使用空格隔開,這樣就和英文的格式相同,每個分開后的詞語可做為一個Token,便于GATE抽取。(2)增加領域詞表。詞表是GATE進行信息抽取的重要資源,詞表的豐富完整影響著命名實體的識別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問。(3)修改JAPE規則。GATE中使用JAPE規則來實現命名實體的識別。本文針對中文“教育”領域,編寫對應的JAPE規則,使得該領域的命名實體能夠得到準確的識別抽取。
學校識別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專院校識別為組織(organization),但對眾多的中小學無法識別。并且組織標注集含義廣泛,學會、公司、政府機構等都會被識別為組織。為了更有針對性的進行識別,本研究新增學校(school)標注,并分別針對中小學、本專科院校及其他各類學校撰寫相應的規則。
Macro:PRIMARY_HIGH //定義識別中小學的宏
({Token.string=="小學"}|{Token.string=="附小"}|{Token.string=="中學"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})
Rule:primary_high
//識別中小學名,如北京第一師范小學,南京瑯琊路小學,山東師大附中等
(
({Lookup.majorType==location,Lookup.minorType==county_abbrev})
//county_abbrev.lst中存放了大量的地區名
({Token})
({Token})
({Token})
//分詞后在地區和中小學之間可能出現0個、1個、2個或3個任意詞組
({Token.string=="師范"}|{Token.string=="師范附屬"})
(PRIMARY_HIGH)
):school
-->
:school.school={kind=inferred,rule="primary_high"}
Rule:university
//識別本專科院校,如上海水產大學等
(
{Lookup.majorType == organization,Lookup.minorType == university}
):school
-->
:school.school={rule="unversity"}
Rule:school
//識別其他各類學校,如幼兒園,成人夜校等
小編推薦優秀的電子類期刊 電子設計工程
《電子設計工程》(半月刊)創刊于1993年,由西安三才科技實業有限公司主辦。中國科技核心期刊(科技論文統計源期刊),原名《國外電子元器件》,主要介紹具有較高學術水平的、電子領域相關的理論、技術、方法的專業性技術期刊。