python爬蟲常用工具庫總結(jié)
發(fā)布時間 2019-12-30
說起爬蟲,大家可能第一時間想到的是python,今天就簡單為大家介紹下pyhton常用的一些庫。
請求庫:實(shí)現(xiàn)基礎(chǔ)Http操作
urllib:python內(nèi)置基本庫,實(shí)現(xiàn)了一系列用于操作url的功能。
phantomjs:一個基于webkit的javascript API。(http://phantomjs.org/)
解析庫:從網(wǎng)頁中提取信息
數(shù)據(jù)庫:數(shù)據(jù)存儲
web框架:
爬蟲框架
scrapy:很強(qiáng)大的爬蟲框架,可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復(fù)雜一點(diǎn)的頁面,如 weibo 的頁面信息,這個框架就滿足不了需求了。
crawley:高速爬取對應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。
portia:可視化爬取網(wǎng)頁內(nèi)容。
newspaper:提取新聞、文章以及內(nèi)容分析。
python-goose:java 寫的文章提取工具。
cola:一個分布式爬蟲框架。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟,模塊間耦合度較高