甘肅省普通高中綜合素質(zhì)評價程序流程
2024-09-27
更新時間:2024-09-27 10:53:24作者:未知
1、學(xué)習(xí)Python基礎(chǔ)知識并實(shí)現(xiàn)基本的爬蟲過程。一般獲取數(shù)據(jù)的過程都是按照 發(fā)送請求-獲得頁面反饋-解析并且存儲數(shù)據(jù) 這三個流程來實(shí)現(xiàn)的。這個過程其實(shí)就是模擬了一個人工瀏覽網(wǎng)頁的過程。
2、Python中爬蟲相關(guān)的包很多:urllib、requests、bs4、scrapy、pyspider 等,我們可以按照requests 負(fù)責(zé)連接網(wǎng)站,返回網(wǎng)頁,Xpath 用于解析網(wǎng)頁,便于抽取數(shù)據(jù)。
3、了解非結(jié)構(gòu)化數(shù)據(jù)的存儲。爬蟲抓取的數(shù)據(jù)結(jié)構(gòu)復(fù)雜 傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫可能并不是特別適合我們使用。我們前期推薦使用MongoDB 就可以。
4、掌握一些常用的反爬蟲技巧。使用代理IP池、抓包、驗(yàn)證碼的OCR處理等處理方式即可以解決大部分網(wǎng)站的反爬蟲策略。
5、了解分布式存儲。分布式這個東西,聽起來很恐怖,但其實(shí)就是利用多線程的原理讓多個爬蟲同時工作,需要你掌握 Scrapy + MongoDB + Redis 這三種工具就可以了。