关于一个爬虫问题


∷需求:通过关键字从以下信息源提取每天新增加的内容(包括新发布的主题帖、新回复评论),通过机器学习可以过滤出一些优质信息每天四个时间段推送给客户端。

∷信息源:论坛、百度知道、百度贴吧、百度新闻、官方网站、QQ群、微信、新浪微博、QQ空间

∷问题:
1、反复去那些信息源采集IP会被封
2、要采集主题帖和回复,怎么确保采集的是最新信息
3、每天四个时间点推送,相隔时间在三小时左右,怎么快速采集出最新的信息
4、关键字数量有几千个,等于在同一信息源要搜索几千次,很容易封IP,工作量大,效率也低

python-爬虫 采集思路 微博采集 网页爬虫

月下的但丁 10 years, 3 months ago

Your Answer