我经营一个有抱负的作家发表他们写作的网站.当然,一些写作可能具有“敏感”性质.有时它包含很多脏话,有时它是恶意的,有时它是自杀的.这不是常态,但它存在.
当然,我们希望用户可以随意发布他们喜欢的内容,但问题出现在广告客户身上.也就是说,Google Adsense会定期向我们发送有关包含过多咒骂或诽谤内容的警告.最新的一篇文章是有人写的关于削减自己的文章,谷歌认为这个文章太“悲惨”了.
我一般能够通过文字来编写脚本并检测很多咒骂词或种族主义术语或反同性恋言论等等.但我不能为我的生活弄清楚如何检测’悲剧’文本.
所以,问题是2倍.
>是否有某种PHP类/功能/ API能够很好地检测出不适当的内容?
>关于如何自动检测自杀或自伤内容的任何想法?
最佳答案 你可以训练一个关于悲剧内容的
Bayesian filter.像垃圾邮件过滤器一样,但对于您想要保留的内容.我使用过这个PHP库,效果很好:
https://github.com/Dachande663/PHP-Classifier
它适合人类的适度和萎缩过程.