色播五月综合_国产精品视频中文字幕91_欧美日韩一区二区在线免费观看_久久久久久成人

中級職稱論文范文基于GATE的中文領域信息

來源:職稱論文發表指導網 作者:職稱論文 發布時間:
掃碼咨詢
   摘要:摘 要:為了準確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領域信息抽取。本文以教育領域為例,修改GATE的中文抽取插件Lang_chinese,精準快速地抽取出該領域的學校名、專業

  摘 要:為了準確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領域信息抽取。本文以“教育”領域為例,修改GATE的中文抽取插件Lang_chinese,精準快速地抽取出該領域的學校名、專業名、人名,為進一步提高中文信息抽取的準確率和召回率提供了研究基礎。

  關鍵詞:GATE;領域抽取

  隨著現代通信和傳播技術的不斷發展,信息巨量生產、高速傳播,人們被大量洶涌而來的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準確地找到所需要的信息成為當前信息處理的研究重點。

  1 信息抽取與GATE框架

  1.1 信息抽取。信息抽取(Information Extraction,簡稱IE)是指從文本中直接抽取用戶感興趣的信息,以結構化的形式存入數據庫中,可供用戶直接使用或進行下一步的信息處理[1]。信息抽取是領域相關的,只能抽取特定領域或某些范圍內有限種類的信息。當有大量的文本需要閱讀處理的時候,信息抽取可以高效、精準地提取出所需要的領域信息。

  1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國Sheffield大學開發的,應用非常廣泛的開源性自然語言處理框架。GATE框架為信息抽取提供了基本平臺[2]。針對英文信息抽取,已經開發了基于該框架的應用實例插件ANNIE。ANNIE在英文信息抽取的準確率和召回率方面均已達到較高水準,并被一些商業公司使用,如惠普、大英電信等。

  2 基于GATE的中文領域信息抽取

  2.1 GATE中自帶的中文信息抽取插件。GATE平臺除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設計比較簡單。以中文插件Lang_Chinese的默認設置對文本進行抽取時,如希望能抽取出需要的領域信息,如在“教育”領域希望抽取出“學校”等組織單位,“校長”等人員信息,則結果不能讓人滿意。

  分析其中的原因,主要有以下幾點:(1)中文分詞處理不夠專業。(2)缺乏針對專業領域構造的中文詞表庫。(3)GATE中自帶的JAPE抽取規則,多是針對英文命名實體識別編寫,對中文支持不夠,導致相當部分的中文不能被識別到。

  2.2 改進的GATE中文領域信息抽取。本研究選取Gate7.1為開發平臺,針對其中文信息抽取插件Lang_Chinese的不足,面向“教育”領域,研究了改進的方法。下面就其中的關鍵技術予以介紹:(1)文檔預處理。本研究采用中科院計算技術研究所開發的ICTCLAS分詞系統對文檔進行分詞預處理。本研究將分詞后的文檔刪去詞性信息,將分開的詞組使用空格隔開,這樣就和英文的格式相同,每個分開后的詞語可做為一個Token,便于GATE抽取。(2)增加領域詞表。詞表是GATE進行信息抽取的重要資源,詞表的豐富完整影響著命名實體的識別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問。(3)修改JAPE規則。GATE中使用JAPE規則來實現命名實體的識別。本文針對中文“教育”領域,編寫對應的JAPE規則,使得該領域的命名實體能夠得到準確的識別抽取。

  學校識別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專院校識別為組織(organization),但對眾多的中小學無法識別。并且組織標注集含義廣泛,學會、公司、政府機構等都會被識別為組織。為了更有針對性的進行識別,本研究新增學校(school)標注,并分別針對中小學、本專科院校及其他各類學校撰寫相應的規則。

  Macro:PRIMARY_HIGH //定義識別中小學的宏

  ({Token.string=="小學"}|{Token.string=="附小"}|{Token.string=="中學"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})

  Rule:primary_high

  //識別中小學名,如北京第一師范小學,南京瑯琊路小學,山東師大附中等

  (

  ({Lookup.majorType==location,Lookup.minorType==county_abbrev})

  //county_abbrev.lst中存放了大量的地區名

  ({Token})

  ({Token})

  ({Token})

  //分詞后在地區和中小學之間可能出現0個、1個、2個或3個任意詞組

  ({Token.string=="師范"}|{Token.string=="師范附屬"})

  (PRIMARY_HIGH)

  ):school

  -->

  :school.school={kind=inferred,rule="primary_high"}

  Rule:university

  //識別本專科院校,如上海水產大學等

  (

  {Lookup.majorType == organization,Lookup.minorType == university}

  ):school

  -->

  :school.school={rule="unversity"}

  Rule:school

  //識別其他各類學校,如幼兒園,成人夜校等

  小編推薦優秀的電子類期刊 電子設計工程

  《電子設計工程》(半月刊)創刊于1993年,由西安三才科技實業有限公司主辦。中國科技核心期刊(科技論文統計源期刊),原名《國外電子元器件》,主要介紹具有較高學術水平的、電子領域相關的理論、技術、方法的專業性技術期刊。

聲明:

①文獻來自知網、維普、萬方等檢索數據庫,說明本文獻已經發表見刊,恭喜作者.

②如果您是作者且不想本平臺展示文獻信息,可聯系學術顧問予以刪除.

《道路交通事故責任鑒定標準相關要點分析》
主站蜘蛛池模板: 日韩精品 欧美| 一区二区三区在线视频看| 国产伦精品免费视频| 国产精品久久久久久久午夜| 午夜精品蜜臀一区二区三区免费| 久久精品小视频| 青青久久av北条麻妃海外网| 色婷婷精品国产一区二区三区| 国产精品极品尤物在线观看| 国产乱子伦精品视频| 久久久久国产精品视频| 久久久神马电影| 精品无码av无码免费专区| 日韩视频―中文字幕| 亚洲一区在线直播| 亚洲伊人久久综合| 午夜视频久久久| 色婷婷成人综合| 日韩一区二区三区资源| 亚洲a级在线观看| 日本一区免费看| 日韩欧美视频一区二区三区四区| 午夜精品久久久内射近拍高清| 亚洲v日韩v欧美v综合| 日韩免费在线播放| 欧美交换配乱吟粗大25p| 久久国产精品免费观看| 激情深爱综合网| 国产乱子伦精品| 国产精品欧美在线| 国产精品免费久久久久影院| 国产精品免费久久久久影院| www.精品av.com| 亚洲精品日韩在线观看| 久久香蕉国产线看观看网| 韩国成人一区| 自拍日韩亚洲一区在线| 日本一区二区高清视频| 久久国产精品网站| 国产成人av在线| 亚洲a级在线观看|