请教一个问题,怎么提高 python 爬虫的爬取效率

如题所述

将网页page source 保存到数据库(mongodb)中,每次取得新的page source 和数据库中的page source 的hash 值是不是想等,如果不等表示有更新。
这个判断有了,爬虫爬取时间策略就好办了。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2017-02-08
多线程爬取可以提高效率
相似回答