目前爬蟲(chóng)框架有很多,他們之所以存在,必然存在各自的優(yōu)勢(shì)?,F(xiàn)在我們爬蟲(chóng)使用到的框架有這些:Beautiful Soup、Scrapy、mechanize、selenium、cola、PySpider等。今天我們就來(lái)說(shuō)說(shuō)這些爬蟲(chóng)框架的優(yōu)缺點(diǎn)。
Beautiful Soup
它的知名度應(yīng)該是家喻戶曉了,一些常規(guī)的爬蟲(chóng),很容易上手。但是它的缺點(diǎn)就是不能夠加載js。
Scrapy
它給人的感覺(jué)是一個(gè)很強(qiáng)大的爬蟲(chóng)框架,可以很好的滿足簡(jiǎn)單的頁(yè)面,例如知道url格式的情況。用該框架可以很容易就爬取到如亞馬遜的商品信息數(shù)據(jù)。但是頁(yè)面如果稍微復(fù)雜點(diǎn),可能就無(wú)能為力了,如在微博的頁(yè)面信息面前,這個(gè)框架就很難滿足需求了。
mechanize
它的優(yōu)點(diǎn)就是可以加載js。缺點(diǎn)就是該框架的接入文檔資源非常的少。
selenium
這個(gè)框架是可以調(diào)用瀏覽器driver的,由該框架我們可以直接調(diào)用瀏覽器來(lái)實(shí)現(xiàn)一些操作,例如輸入驗(yàn)證碼。
cola
cola是一個(gè)分布式的爬蟲(chóng)框架,不過(guò)整個(gè)框架設(shè)計(jì)的有點(diǎn)糟糕,模塊的耦合度高。
PySpider
它能夠抓取、更新調(diào)度多站點(diǎn)的特定頁(yè)面,會(huì)對(duì)頁(yè)面進(jìn)行結(jié)構(gòu)優(yōu)化信息提取,而且靈活可擴(kuò)展,穩(wěn)定可監(jiān)控。