如何建立一个比较准确的敏感词过滤筛选功能
当项目有大量用户产生内容,或者使用爬虫采集内容时(比如新浪微博/豆瓣等)。由于一些和谐因素,对外开放的资源必须经过审核和过滤(你懂的)。
那么这里就会有建立一个基于敏感词过滤筛选功能的需求,由于是数据是不可控的,敏感词数量和范围都很大,肯定不能靠人工方式慢慢录入,那么怎么样能比较自动化建立并维护一个敏感词库呢?比如在建立搜索词库时,我们可以从一些输入法词库导入数据,是否能借鉴这种思路呢?
当项目有大量用户产生内容,或者使用爬虫采集内容时(比如新浪微博/豆瓣等)。由于一些和谐因素,对外开放的资源必须经过审核和过滤(你懂的)。
那么这里就会有建立一个基于敏感词过滤筛选功能的需求,由于是数据是不可控的,敏感词数量和范围都很大,肯定不能靠人工方式慢慢录入,那么怎么样能比较自动化建立并维护一个敏感词库呢?比如在建立搜索词库时,我们可以从一些输入法词库导入数据,是否能借鉴这种思路呢?