您現(xiàn)在的位置：首頁(yè)AQF考試常見(jiàn)問(wèn)題量化金融分析師（AQF）|Python爬蟲(chóng)入門并不難，甚至進(jìn)階也很簡(jiǎn)單

量化金融分析師（AQF）|Python爬蟲(chóng)入門并不難，甚至進(jìn)階也很簡(jiǎn)單

發(fā)表時(shí)間： 2018-08-02 11:13:20 編輯：jc

互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式的增長(zhǎng)，而利用 Python 爬蟲(chóng)我們可以獲取大量有價(jià)值的數(shù)據(jù)

互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式的增長(zhǎng)，而利用Python爬蟲(chóng)我們可以獲取大量有價(jià)值的數(shù)據(jù)：

1.爬取數(shù)據(jù)，進(jìn)行市場(chǎng)調(diào)研和商業(yè)分析

爬取知乎優(yōu)質(zhì)答案，篩選各話題下較優(yōu)質(zhì)的內(nèi)容；抓取房產(chǎn)網(wǎng)站買賣信息，分析房?jī)r(jià)變化趨勢(shì)、做不同區(qū)域的房?jī)r(jià)分析；爬取招聘網(wǎng)站職位信息，分析各行業(yè)人才需求情況及薪資水平。

2.作為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的原始數(shù)據(jù)

比如你要做一個(gè)推薦系統(tǒng)，那么你可以去爬取更多維度的數(shù)據(jù)，做出更好的模型。

3.爬取優(yōu)質(zhì)的資源：圖片、文本、視頻

爬取商品（店鋪）評(píng)論以及各種圖片網(wǎng)站，獲得圖片資源以及評(píng)論文本數(shù)據(jù)。

掌握正確的方法，在短時(shí)間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù)，其實(shí)非常容易實(shí)現(xiàn)。

但建議你從一開(kāi)始就要有一個(gè)具體的目標(biāo)，在目標(biāo)的驅(qū)動(dòng)下，你的學(xué)習(xí)才會(huì)更加精準(zhǔn)和高效。這里給你一條平滑的、零基礎(chǔ)快速入門的學(xué)習(xí)路徑：

1.了解爬蟲(chóng)的基本原理及過(guò)程

2.Requests+Xpath實(shí)現(xiàn)通用爬蟲(chóng)套路

3.了解非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)

4.應(yīng)對(duì)特殊網(wǎng)站的反爬蟲(chóng)措施

5.Scrapy與MongoDB，進(jìn)階分布式

>>>點(diǎn)擊咨詢python編程基礎(chǔ)課程

01了解爬蟲(chóng)的基本原理及過(guò)程

大部分爬蟲(chóng)都是按“發(fā)送請(qǐng)求——獲得頁(yè)面——解析頁(yè)面——抽取并儲(chǔ)存內(nèi)容”這樣的流程來(lái)進(jìn)行，這其實(shí)也是模擬了我們使用瀏覽器獲取網(wǎng)頁(yè)信息的過(guò)程。

簡(jiǎn)單來(lái)說(shuō)，我們向服務(wù)器發(fā)送請(qǐng)求后，會(huì)得到返回的頁(yè)面，通過(guò)解析頁(yè)面之后，我們可以抽取我們想要的那部分信息，并存儲(chǔ)在指定的文檔或數(shù)據(jù)庫(kù)中。

在這部分你可以簡(jiǎn)單了解HTTP協(xié)議及網(wǎng)頁(yè)基礎(chǔ)知識(shí)，比如POST\GET、HTML、CSS、JS，簡(jiǎn)單了解即可，不需要系統(tǒng)學(xué)習(xí)。

02學(xué)習(xí)Python包并實(shí)現(xiàn)基本的爬蟲(chóng)過(guò)程

Python中爬蟲(chóng)相關(guān)的包很多：urllib、requests、bs4、scrapy、pyspider等，建議你從requests+Xpath開(kāi)始，requests負(fù)責(zé)連接網(wǎng)站，返回網(wǎng)頁(yè)，Xpath用于解析網(wǎng)頁(yè)，便于抽取數(shù)據(jù)。

如果你用過(guò)BeautifulSoup，會(huì)發(fā)現(xiàn)Xpath要省事不少，一層一層檢查元素代碼的工作，全都省略了。掌握之后，你會(huì)發(fā)現(xiàn)爬蟲(chóng)的基本套路都差不多，一般的靜態(tài)網(wǎng)站根本不在話下，小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。

03非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)

爬回來(lái)的數(shù)據(jù)可以直接用文檔形式存在本地，也可以存入數(shù)據(jù)庫(kù)中。

開(kāi)始數(shù)據(jù)量不大的時(shí)候，你可以直接通過(guò)Python的語(yǔ)法或pandas的方法將數(shù)據(jù)存為text、csv這樣的文件。

04掌握各種技巧，應(yīng)對(duì)特殊網(wǎng)站的反爬措施

爬取一個(gè)頁(yè)面的的數(shù)據(jù)是沒(méi)問(wèn)題了，但是我們通常是要爬取多個(gè)頁(yè)面。

05Scrapy與MongoDB，進(jìn)階分布式

掌握前面的技術(shù)，一般量級(jí)的數(shù)據(jù)和代碼基本沒(méi)有問(wèn)題了，但是在遇到非常復(fù)雜的情況，可能仍然會(huì)力不從心，這個(gè)時(shí)候，強(qiáng)大的scrapy框架就非常有用了。

scrapy是一個(gè)功能非常強(qiáng)大的爬蟲(chóng)框架，它不僅能便捷地構(gòu)建request，還有強(qiáng)大的selector能夠方便地解析response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲(chóng)工程化、模塊化。

這個(gè)時(shí)候，你已經(jīng)可以去寫分布式爬蟲(chóng)了。

掃描下方二維碼了解更多精彩內(nèi)容喲！