∷需求:通过关键字从以下信息源提取每天新增加的内容(包括新发布的主题帖、新回复评论),通过机器学习可以过滤出一些优质信息每天四个时间段推送给客户端。
∷信息源:论坛、百度知道、百度贴吧、百度新闻、官方网站、QQ群、微信、新浪微博、QQ空间
∷问题: 1、反复去那些信息源采集IP会被封 2、要采集主题帖和回复,怎么确保采集的是最新信息 3、每天四个时间点推送,相隔时间在三小时左右,怎么快速采集出最新的信息 4、关键字数量有几千个,等于在同一信息源要搜索几千次,很容易封IP,工作量大,效率也低
python-爬虫 采集思路 微博采集 网页爬虫
python爬虫下载文档
用scrapy爬虫结合什么第三方解析js动态加载网页比较好?
Python requests 多线程抓取 出现HTTPConnectionPool Max ...
python 爬虫爬取代理验证验证代理的速度?一直不能爬取,出现各种问题,求指导??
模拟登陆教务处,验证码问题?
学习python爬虫程序需要熟悉js吗?