摘要:摘要:網絡時代已經到來,網絡改變了我們的生活方式,也帶動了網絡技術不斷取得新的進步。網絡信息采集技術是網絡建設的常見方式之一,計算機網絡信息采集技術將成為重大研究
摘要:網絡時代已經到來,網絡改變了我們的生活方式,也帶動了網絡技術不斷取得新的進步。網絡信息采集技術是網絡建設的常見方式之一,計算機網絡信息采集技術將成為重大研究課題。
關鍵詞:網絡信息;概述;采集技術;質量控制
1.前言
網絡信息資源極為豐富,概述起來有以下幾個特點:一是數字化、網絡化、虛擬化;網絡資源以存儲方式數字化、傳播方式網絡化、形態結構虛擬化的方式在網上表現出來。二是內容多樣性;網絡資源包羅萬象,具有大數量、多類型、非規范、跨時空、內容良莠不齊、質量高低不等的特點。三是資源分布無序性;網絡資源的構成和分布雜亂無章,缺乏統一的結構和組織。四是資源開放性;網上資源是開放的、相關聯的,用戶只要將計算機連接在網絡上,就可以任意瀏覽并下載這些網絡資源。五是動態性;網上資源跨地區分布,高速傳播,更新淘汰周期短、變化快、不穩定,呈高度動態性和很強的時效性。六是互動性;在網上可以形成廣泛的論壇氛圍,專家可以就某一專題開設電子論壇,在網上直接交流討論、反饋用戶信息,具有很強的互動功能。七是增值性;網上信息資源開發與建設的最終目的是服務。用戶在網上利用各種手段查找所需的信息內容,在這一過程中信息被反復利用,不但不會導致網上信息資源損耗,反而可使信息增值。

2.網絡信息采集簡述
2.1采集方式
在現在的互聯網世界里,我們接觸最多的網絡信息是以Web頁面形式存在的。另外,電子郵件、FTP、BBS、電子論壇、新聞組也是互聯網上獲取信息的常見渠道。平常,我們通常利用一些客戶端軟件手工鏈接到信息源去獲取信息。例如,在win7平臺上用戶即可運用ie、谷歌、搜狗、有道、360等各類瀏覽器上網瀏覽所需的網頁內容;運用搜狐郵箱、QQ郵箱、Outlook等收發郵件;運用迅雷等軟件下載軟件、電影、歌曲等。上述客戶端或軟件為用戶上網或下載提供了方便,但均需通過手工輸入鏈接以獲取到所需的信息,但是當今網絡信息爆炸,大量的信息匯聚在一起,單純依靠手工輸入的方式無形中增加了搜索的工作量和難度,難以滿足用戶的需求。因此,基于上述情況,信息采集與推送技術應運而生,為用戶瀏覽信息和接收信息提供了極大便利。
2.2采集技術
在網絡信息時代,短時間內獲取大量信息的最有效方式就是信息采集,尤其是在創建新站點的過程中信息采集是最常用的方式。運用采集軟件或采集器即可從特定的采集對象中自動獲取到所需的信息,以填充到新站點之中。網絡搜索引擎也是通過一個叫做WebCrawler的機器人程序負責網絡信息的采集工作的。WebCrawler是一種能夠利用Web文檔內的超鏈接遞歸地訪問新文檔的程序,它以一個或一組URL為瀏覽起點,對相應的WWW文檔進行訪問。當一個文檔上傳到服務器之后即有可能被搜索引擎抓取以創建文檔索引,該文檔中蘊含的超鏈接則會被WebCrawler再次抓取且再次創建新的文檔索引,如此循環。一方面,為WebCrawler的抓取工作提供了海量的資源;另一方,豐富了網民的網絡世界,實現了信息的快速流通。這種信息采集方式集合了定題收集與定向收集以及跟蹤收集等方式,具有采集靈活與方便的特性。
2.3推送技術
網絡公司根據自身的需求運用相應的網絡技術并設定一定的標準,從海量的網絡信息世界中采集所需的信息,經過加工處理之后再傳遞給用戶。在該模式下,用戶沒有主動獲取信息之權而且被動的接受網絡公司提供的信息,但卻節省了自身搜集信息的時間與成本。
3.網絡信息采集技術類型
3.1網絡信息挖掘技術
網絡信息挖掘技術是指在主題樣本的基礎上,得到數據間的內在特征,并以此為依據在網絡中挖掘與用戶需求一致的信息的技術。它是數據挖掘技術在網絡中的應用,整合了全文檢索、人工智能、模式識別、神經網絡等技術。網絡信息挖掘根據用戶提供的主題,提取主題特征信息,根據主題特征自動在網絡中挖掘信息,然后對挖掘到的信息進行整理,導入信息庫,以備過濾之用。
3.2網絡信息抽取技術
網絡信息抽取技術是指從網絡自然語言文本中抽取更符合采集主題的信息,并形成結構化數據輸出的技術。它是在機器學習、模式挖掘、自然語言處理等技術基礎之上發展起來的一項新技術。網絡信息抽取步驟主要分為命名實體識別、句法分析、篇章分析與理解以及知識獲取。①命名實體識別。命名實體是文本中的基本信息元素,是正確理解文本的基礎。命名實體是現實世界中的具體或抽象實體,例如通常由唯一標識符(專有名稱)表示的人員,組織,公司,地點等,例如姓名,組織名稱,公司名稱,地名等。②句法分析。它是計算機通過語法分析來理解自然語言的基礎,例如完整的分析樹或一組分析樹片段。③篇章分析與理解。一般來說,用戶的興趣通常在文本的不同位置傳播,文本中隱藏著很多。為了從文本中準確提取相關信息,信息提取系統必須能夠識別文本和文本之間的常見現象。如果文本的來源更廣泛,許多文本可能會描述相同的實體,并且不同文本之間將存在語義歧義。如果同一個詞有不同的含義,不同的詞意味著一個意思。為了避免重復信息,沖突,信息提取系統需要識別和處理能力參考現象。④知識獲取。作為一種自然語言處理系統,網絡信息抽取技術需要知識庫的支撐。知識庫主要包括:詞典、抽取模式庫、篇章分析和推理規則庫等。
4.網絡信息采集過程中的質量控制
4.1網絡信息內容的選擇
由于當今網絡站點數以萬計而且每日處于增長之中,信息每日俱增,大量內容相似乃至重復的內容充斥其中,對于用普通用戶而言難以控制信息的重疊,只能被動的接受。尤其是在我國網絡管理制度不健全的大環境下,加之搜索引擎在創建之初缺乏信息,并未對信息進行分類和篩選而是全盤接收,由此直接導致了網絡信息的泛濫與內容低質化。
4.2網絡信息的采集策略
綜合上述分析,在信息采集過程中可制定以下幾點采集控制措施:其一,根據需求合理控制信息采集的深度,以節省資源和提升效率。針對網頁鏈接層次較深的站點,全站采集不僅難度較大而且極耗時間,因此結合信息內容確定網頁深度,達到一定的深度即可無需再進行采集;其二,根據采集信息的內容,剔除無關緊要或無需采集的鏈接。一個站點包含了大量鏈接,其中可能存在諸多重復鏈接與死鏈等,對于這樣的鏈接在采集過程中應加以規避,避免占用采集資源;其三,限制搜索跳轉。作為專業搜索引擎,要采集的信息資源通常集中在幾個固定的初始網站內,這樣就不希望網站采集器跳轉到其它的網站;其四,根據采集需求,剔除無需采集的文件類型。
5.結束語
對于網絡信息我們要加強采集利用,通過合理的采集手段保證信息的采集質量。
參考文獻
[1]郭巖,王宇.網絡信息抽取技術研究[J].信息技術快報,2016(6):15-23.
[2]劉柏嵩.信息過濾研究[J].現代圖書情報技術,2016,(6):23-26.
作者劉泉林
推薦閱讀:論文如何通過網絡投稿
聲明:
①文獻來自知網、維普、萬方等檢索數據庫,說明本文獻已經發表見刊,恭喜作者.
②如果您是作者且不想本平臺展示文獻信息,可聯系學術顧問予以刪除.