摘要:本文是一篇 計算機信息處理論文 ,發表在《 計算機工程與設計 》上,雜志創刊于1980年,由中國航天科工集團第二研究院706所主辦,是中國計算機學會會刊、北京計算機學會會刊和中
本文是一篇計算機信息處理論文,發表在《計算機工程與設計》上,雜志創刊于1980年,由中國航天科工集團第二研究院706所主辦,是中國計算機學會會刊、北京計算機學會會刊和中國宇航學會會刊,是全國中文核心期刊、中國科技核心期刊。該刊是《中國科技引文數據庫》、《中國學術期刊綜合評價數據庫》、《中文科技期刊數據庫》來源期刊,是中國學術期刊文摘(中文版)、電子科技文獻數據庫、中文科技期刊數據庫收錄期刊,是中國科技論文統計與分析用刊,在“萬方數據-數字化期刊群”全文上網,并由《中國學術期刊(光盤版)》和《中國期刊網》全文收錄。
論文關鍵詞:信息處理,N元模型,語音識別,句法分析,計算機信息處理論文
論文摘要:本文是計算機信息處理論文,分析了中文信息處理的主流技術,尤其是幾個重要的部分,即N元模型、語音識別和句法分析技術。
一、中文信息處理的特點
(一)漢字的特殊性
我們都知道,英語在計算機信息處理方面的優勢就是其字母數量有限,因而可以很容易的進行輸入輸出以及信息的加工和處理,而中文的漢字則數量龐大,且字形相對復雜,這就給漢字的編碼帶來了不小的困擾。因此我們根據漢字信息處理過程中的不同要求對漢字進行了不同形式的編碼,總結來說有以下幾種方案,即漢字輸入編碼,漢字標準編碼,漢字內碼和漢字形碼。
(二)書面漢語的特殊性
漢語的另一個特征是在書面表達中,詞語和記號之間沒有明顯的分隔標記,這就使自動分詞在書面漢語分析中成立一個難題。分詞需要將連續的字按照一定的規范進行有序的組合,比較英文我們會發現,英文單詞之間都是用空格來做分隔符,而中文則是習慣通過字、整句以及段落進行簡單的劃分,而這其中的一個難點就是對詞語的劃分,我們都知道,英語中也有短語劃分的問題,但是由于中文的詞語遠比英語的數量和范圍要龐大,因而處理起來更為困難。
(三)漢語語音的特殊性
在語音方面,漢語的特征是音節結構相對簡單,音節劃分界限比較清晰,但是聲調和變調是中文與英文的顯著區別,因而在語音識別和語音合成方面來講這是一個劣勢,但是總體上來說漢語語音的處理比之其他方面來說還是相對容易的。
(四)漢語語法的特殊性
在語法方面,漢語詞匯的句法功能相對來說難以判斷,這與英語語言上的多變形態有著截然不同的表現。漢語主要依靠詞序和虛詞來表達不同的含義,因此如果不能很好的掌握句法,就特別容易產生歧義,因此漢語語句自動分析這一重要技術是一項難以攻克的技術。
二、中文信息處理的若干技術
(一)N元模型
設wi是文本中的任意一個詞,如果已知它在該文本中的前兩個詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預測wi出現的概率。這就是統計語言模型的概念。一般來說,如果用變量W代表文本中一個任意的詞序列,它由順序排列的n個詞組成,即W=w1w2。。。wn,則統計語言模型就是該詞序列W在文本中出現的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不難看出,為了預測詞w n的出現概率,必須知道它前面所有詞的出現概率。從計算上來看,這種方法太復雜了。如果任意一個詞wi的出現概率只同它前面的兩個詞有關,問題就可以得到極大的簡化。這時的語言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)
《計算機周刊》Computer Weekly(周刊)曾用刊名:上海微型計算機;計算機,1982年創刊,本刊集權威性、理論性與專業性于一體,具有很高的學術價值,是作者科研、晉級等方面的權威依據,歡迎廣大作者積極撰寫論文,踴躍投稿!征稿對象:全國高等學校、科研及推廣院所站、各級黨政機關、企事業單位的廣大專家學者、工程技術人員、碩士博士研究生、管理人員等。《計算機周刊》主管單位:長江計算機(集團)公司,主辦單位:長江計算機(集團)公司,國內統一刊號:31-1427/TP,國際標準刊號:1007-466X
