97久久综合亚洲色HEZYO,曰韩无码二三区中文字幕,免费超爽大片黄,国产女人爽的流水毛片

網(wǎng)站logo
×

首頁(yè) > 最新資訊 > 各種爬蟲(chóng)框架的優(yōu)缺點(diǎn)

各種爬蟲(chóng)框架的優(yōu)缺點(diǎn)

發(fā)布時(shí)間 2020-05-26


目前爬蟲(chóng)框架有很多,他們之所以存在,必然存在各自的優(yōu)勢(shì)?,F(xiàn)在我們爬蟲(chóng)使用到的框架有這些:Beautiful Soup、Scrapy、mechanize、selenium、cola、PySpider等。今天我們就來(lái)說(shuō)說(shuō)這些爬蟲(chóng)框架的優(yōu)缺點(diǎn)。


Beautiful Soup

它的知名度應(yīng)該是家喻戶曉了,一些常規(guī)的爬蟲(chóng),很容易上手。但是它的缺點(diǎn)就是不能夠加載js。

 

Scrapy

它給人的感覺(jué)是一個(gè)很強(qiáng)大的爬蟲(chóng)框架,可以很好的滿足簡(jiǎn)單的頁(yè)面,例如知道url格式的情況。用該框架可以很容易就爬取到如亞馬遜的商品信息數(shù)據(jù)。但是頁(yè)面如果稍微復(fù)雜點(diǎn),可能就無(wú)能為力了,如在微博的頁(yè)面信息面前,這個(gè)框架就很難滿足需求了。

 

mechanize

它的優(yōu)點(diǎn)就是可以加載js。缺點(diǎn)就是該框架的接入文檔資源非常的少。

 

selenium

這個(gè)框架是可以調(diào)用瀏覽器driver的,由該框架我們可以直接調(diào)用瀏覽器來(lái)實(shí)現(xiàn)一些操作,例如輸入驗(yàn)證碼。

 

cola

cola是一個(gè)分布式的爬蟲(chóng)框架,不過(guò)整個(gè)框架設(shè)計(jì)的有點(diǎn)糟糕,模塊的耦合度高。

 

PySpider

它能夠抓取、更新調(diào)度多站點(diǎn)的特定頁(yè)面,會(huì)對(duì)頁(yè)面進(jìn)行結(jié)構(gòu)優(yōu)化信息提取,而且靈活可擴(kuò)展,穩(wěn)定可監(jiān)控。