色播五月综合_国产精品视频中文字幕91_欧美日韩一区二区在线免费观看_久久久久久成人

基于網(wǎng)絡爬蟲的就業(yè)數(shù)據(jù)分析

來源:職稱論文發(fā)表指導網(wǎng) 作者:田編輯 發(fā)布時間:
掃碼咨詢
   摘要:要: 隨著網(wǎng)絡信息量的爆炸式增長,大數(shù)據(jù)時代的來臨,利用網(wǎng)絡爬蟲對大數(shù)據(jù)進行分析處理有非常重要的意義。本文 以 BOSS 直聘網(wǎng)站為例,在 Python3.7 和 MySQL Server8.0 的基礎上,設

  要: 隨著網(wǎng)絡信息量的爆炸式增長,大數(shù)據(jù)時代的來臨,利用網(wǎng)絡爬蟲對大數(shù)據(jù)進行分析處理有非常重要的意義。本文 以 BOSS 直聘網(wǎng)站為例,在 Python3.7 和 MySQL Server8.0 的基礎上,設計并實現(xiàn)了一個關于就業(yè)信息的數(shù)據(jù)采集存儲系統(tǒng)。 并且通過對采集到的就業(yè)數(shù)據(jù)信息做出多個方面的分析,利用這些數(shù)據(jù)分析結果為大多數(shù)人在就業(yè)選擇以及未來規(guī)劃的時 候提供一個有據(jù)可依的參照,起到一個指導就業(yè)的作用。

  關鍵詞: 網(wǎng)絡爬蟲; 就業(yè)信息; 數(shù)據(jù)分析; 就業(yè)指導

  0 引 言

  隨著人工智能的概念逐步的深入展開,人工智能 因其高效性和實用性受到越來越多的重視。作為人 工智能的重要組成部分,大數(shù)據(jù)也開始在社會生產(chǎn)中 發(fā)揮巨大作用,同時還帶動了社會生活質量的全面提 升,并提供了以往不曾有過的便利性。在國內(nèi)對高等 教育改革正邁向更深層次的時候,各校的畢業(yè)生規(guī)模 也逐年增加。臨近畢業(yè)時,或多或少都會存在許多迷 茫。而在招聘、應聘的過程中,互聯(lián)網(wǎng)作為當下承載 海量招聘信息的重要載體,則給畢業(yè)生的擇業(yè)提供了 一條便捷途徑。只是互聯(lián)網(wǎng)的信息檢索中卻會面臨 許多用戶并不需要的信息,只有通過人工篩選、再經(jīng) 總結對比后,才能得到最終想要的信息。

基于網(wǎng)絡爬蟲的就業(yè)數(shù)據(jù)分析

  1爬蟲的設計

  1.1 系統(tǒng)需求及分析 網(wǎng)絡爬蟲系統(tǒng)的開發(fā)是否成功取決于確保系統(tǒng) 能夠實現(xiàn)用戶定制功能,達到預期設計目的。因此, 在網(wǎng)絡爬蟲系統(tǒng)開發(fā)之前,就需要對該系統(tǒng)需求加 以詳盡分析,從而對整體的設計有一個清晰的思路。 時下,普遍適用的爬蟲系統(tǒng)都是模塊化的,模塊化的 程序設計有利于代碼塊的測試與維護,而且也進一 步增加了代碼的適用性。在此基礎上,只要對各個 模塊進行組合,就能夠構建出一個完整的爬蟲系統(tǒng)。 本次研究即以 BOSS 直聘為例,開展模塊化的編程 設計。因為研究旨在通過爬蟲系統(tǒng)對當前就業(yè)做出 科學分析,故而針對此需求就要從 BOSS 直聘網(wǎng)站 中獲取全部的崗位信息,以及從每個崗位中獲得包 括各崗位名稱、工作地點、薪水、公司規(guī)模性質、工作 要求在內(nèi)的各種關鍵信息。至此,在接下來的功能、 模塊設計中,就具備了較強的針對性。

  1.2 爬蟲模塊設計

  1.2.1 爬蟲整體設計思路 爬蟲系統(tǒng)的設計思路為: 首先,需要獲得所有包括崗位信息網(wǎng)頁的源碼; 其次,在每一頁的網(wǎng)頁源碼 中尋找出與需求相匹配的信息,此時就需要連接爬 蟲系統(tǒng)和數(shù)據(jù)庫,將每次成功匹配到的信息均存入 數(shù)據(jù)庫中,直至所有網(wǎng)頁檢索完畢。在數(shù)據(jù)爬取的 整個過程中,針對 BOSS 直聘的高度反爬,還要在各 個模塊中引入適當?shù)姆窗遣呗裕源吮WC數(shù)據(jù)爬取 的連續(xù)性。研究可得整體設計框架如圖 1 所示

  1.2.2 爬蟲的網(wǎng)頁抓取模塊 網(wǎng)頁抓取模塊作為爬蟲系統(tǒng)中最重要的部分, 也是起始的模塊。但是從實際爬取的情況來看,針 對同一個 IP 在短時間內(nèi)的多次爬取,會被網(wǎng)站屏蔽 IP 地址,因此在這里采用代理 IP 池的技術去訪問。 為了避免被對方發(fā)現(xiàn),還需要加入 User-Agent 將自 己偽裝成代理服務器。通過構造代理 IP 池以及由 眾多用戶代理組成的代理池,每次隨機選擇訪問 IP 與用戶代理的搭配,據(jù)此而將自己偽裝成來自不同 IP 的用戶訪問,大大降低了被反爬蟲的概率。接下 來采用 Requsets 庫 的 API 去解析當前第一層的 URL。如: resp = requests.get( url, headers = headers, proxies = proxies,timeout = 5)

  2 數(shù)據(jù)分析

  2.1 數(shù)據(jù)處理

  通過設計好的網(wǎng)絡爬蟲系統(tǒng),從 BOSS 直聘網(wǎng) 站上爬取了上海地區(qū) 13 萬多的崗位招聘信息數(shù)據(jù), 從招聘崗位、工資待遇、工作地點、工作要求、公司性 質這幾方面的信息,對上海地區(qū)的就業(yè)數(shù)據(jù)做出研 究與分析,對廣大擇業(yè)人員可起到一個初步指導的 作用。 通過 Navicat Premium 將數(shù)據(jù)庫導出成 Excel 文 件,在 Python 中通過 pandas 庫對數(shù)據(jù)進行處理,首 先將所有的數(shù)據(jù)通過 read_excel 的 API 讀取到處理 環(huán)境下,將每一列的數(shù)據(jù)分別提取出來構造出 job、 salary、requirements、situation 四個列表,通過遍歷整 個 requirements,檢索每一個元素的字段,可以統(tǒng)計 出上海市每個地區(qū)大約能夠提供多少個工作崗位; 同理,用上述的方法,可以統(tǒng)計出上海地區(qū)提供的工 作崗位對學歷的要求,以及公司規(guī)模的情況。對于 就業(yè)數(shù)據(jù)分析來說,至關重要的就是薪資分析,將提 取出來的 salary 列表,對每一個元素采用正則表達 式匹配前兩個數(shù)字,也就是這份工作的薪水上下限, 求一個平均值,遍歷整個列表,對薪水分布進行統(tǒng) 計。同時,通過定位以及包含字符段的方法,可以將 每個地區(qū)的工作以及相對應的薪水提取出來,再通 過前文對全上海各地區(qū)的工作崗位統(tǒng)計,對上海各 地區(qū)的平均薪資做出分析。在此基礎上,各行各業(yè) 的薪資水平也能夠根據(jù)各行業(yè)的崗位數(shù)以及對應的 平均薪資計算得出。

  2.2 數(shù)據(jù)分析結果

  隨著應屆畢業(yè)生的人數(shù)每年不斷上升,帶給社 會的就業(yè)壓力也隨即增大,在這種就業(yè)形勢競爭激 烈的就業(yè)市場里面如何做出最佳的選擇即已成為研 究的熱點與焦點。

  3 結束語

  本文通過 Python 加上 MySQL Server 的配置,創(chuàng) 建了一個基于 BOSS 直聘網(wǎng)站的網(wǎng)絡爬蟲數(shù)據(jù)收集 分析系統(tǒng),該系統(tǒng)能夠登錄到 BOSS 直聘,并獲取頁 面信息,分析頁面中的 URL,同時對篩選構造后的 URL 再一次進行數(shù)據(jù)篩選,將用戶獲取到的數(shù)據(jù)存 儲到數(shù)據(jù)庫,在此基礎上將對數(shù)據(jù)進行深層次的挖 掘,也就是運用一系列的數(shù)據(jù)分析手段,獲得關于上 海各地區(qū)、各崗位的薪資待遇、招聘需求等一系列重 要信息,為廣大的就業(yè)人員提供有益的借鑒與參考。

  參考文獻

  [1]徐遠超,劉江華,劉麗珍,等. 基于 Web 的網(wǎng)絡爬蟲的設計與 實現(xiàn)[J]. 微計算機信息,2007,23( 21) : 119-121.

  [2]郭麗蓉. 基于 Python 的網(wǎng)絡爬蟲程序設計[J]. 電子技術與軟件 工程,2017( 23) : 248-249.

  [3]周中華,張惠然,謝江. 基于 Python 的新浪微博數(shù)據(jù)爬蟲[J]. 計算機應用,2014,34( 11) : 3131-3134

  作者項博良,唐淳淳,錢 前,曹健東

聲明:

①文獻來自知網(wǎng)、維普、萬方等檢索數(shù)據(jù)庫,說明本文獻已經(jīng)發(fā)表見刊,恭喜作者.

②如果您是作者且不想本平臺展示文獻信息,可聯(lián)系學術顧問予以刪除.

《道路交通事故責任鑒定標準相關要點分析》
主站蜘蛛池模板: 久久99热精品| 国产欧美自拍视频| 午夜精品一区二区三区在线播放 | 国产区欧美区日韩区| 日韩国产欧美亚洲| 日韩中文字幕视频在线| 91精品国产亚洲| 91精品久久久久| 亚洲日本欧美在线| 亚洲欧美日韩不卡一区二区三区| 中文字幕99| 日韩亚洲欧美中文高清在线| 日韩免费中文字幕| 欧美激情极品视频| 精品国内产的精品视频在线观看| 欧美极品欧美精品欧美视频| 久久躁狠狠躁夜夜爽| 内射国产内射夫妻免费频道| 久久久免费在线观看| 国严精品久久久久久亚洲影视| 国产日韩视频在线观看| 国产日韩欧美综合| 国产精品久久久久久久久久久不卡 | 欧美日韩大片一区二区三区| 欧美亚洲另类制服自拍| 久久精品视频免费播放| 久久精品日韩精品| 国产精品福利在线观看网址| 97国产精品久久| 日本一区免费| 免费不卡在线观看av| 国产免费亚洲高清| 97精品欧美一区二区三区| 91av在线播放| 欧美日韩一区二区视频在线| 精品国产拍在线观看| **亚洲第一综合导航网站| 日本高清视频一区二区三区| 国产一区福利视频| 亚洲a区在线视频| 久久婷婷国产精品|