如何建立一个比较准确的敏感词过滤筛选功能


当项目有大量用户产生内容,或者使用爬虫采集内容时(比如新浪微博/豆瓣等)。由于一些和谐因素,对外开放的资源必须经过审核和过滤(你懂的)。

那么这里就会有建立一个基于敏感词过滤筛选功能的需求,由于是数据是不可控的,敏感词数量和范围都很大,肯定不能靠人工方式慢慢录入,那么怎么样能比较自动化建立并维护一个敏感词库呢?比如在建立搜索词库时,我们可以从一些输入法词库导入数据,是否能借鉴这种思路呢?

php 搜索技术

Jieee 12 years, 11 months ago
毒岛的胸是我的 answered 12 years, 11 months ago

Your Answer