请问对于一个搜索引擎,如何实时监测网页的更新? 对于新抓取下来的网页,如何快速更新索引,同时更新时不影响搜索服务? 我现在用的nutch来做搜索引擎,采用Lucene建立索引。
lucene 搜索技术
不可能实时监测的,除非: 1. 网站是你自己的,比如百度贴吧 2. 网站用你提供的接口主动告诉你“我在XXX时候进行了更新”
至于更新索引,技术就多了。 比如有两套索引,一套前台服务一套后台更新,更新完之后切换(对分布式系统来说可能就是改一下DNS);也可以每个最小单元的地方都是这样可更新的结构。很多数据库自己就是支持Transact的,也就不用考虑这个问题了。
如何选择搜索引擎:Lucene、Sphinx还是MySQL的全文检索?
lucene2.4更新索引太慢
Lucene 4.8.1 IndexWriter Close 后 write.lock 文件不...
如何提高网站搜索效率
团购类网站设计全文索引问题
为什么要使用lucene?数据库不可以解决吗?