如何建立一个比较准确的敏感词过滤筛选功能

0 0

当项目有大量用户产生内容，或者使用爬虫采集内容时（比如新浪微博/豆瓣等）。由于一些和谐因素，对外开放的资源必须经过审核和过滤（你懂的）。

那么这里就会有建立一个基于敏感词过滤筛选功能的需求，由于是数据是不可控的，敏感词数量和范围都很大，肯定不能靠人工方式慢慢录入，那么怎么样能比较自动化建立并维护一个敏感词库呢？比如在建立搜索词库时，我们可以从一些输入法词库导入数据，是否能借鉴这种思路呢？

13 years ago

Jieee 13 years ago

answered 13 years ago

毒岛的胸是我的 answered 13 years ago