Skip to content

一些说明

冬日新雨 edited this page Oct 16, 2022 · 6 revisions

语言暴力数据过滤

  • 即辱骂、侮辱、语言攻击等
  • jionlp 目前不提供、未来也不打算提供此功能

原因

  • 语言暴力文字的检查屏蔽伴随了暴力语言文字的变异,例如:“傻逼”,逐渐演变成了 “sb”、“s,b”,“煞笔” ,“伞兵”,“烧杯”等等(色情,反动同理)。这其中的“伞兵”,“烧杯”已经无法被处理,因为已经脱离了词汇本身的语义,属于具有高语义的引申义。这本身很难用词典来应对。
  • 这类似于爬虫和反爬相互促进作用,这个过程必然是一个迭代和变化较快的过程。因此,拿一个固定的词典一定时效性较差,需要频繁地迭代和更新。作为一个工具包,很难做到实时更新。
  • 人有自由发言权利;语言暴力文字本来就是人的生活的必不可少的一部分,不会因审查而消失。提供此类数据很容易被滥用,被某些机构用于不好的方面。

色情数据过滤

  • 同【语言暴力数据过滤】

反动数据过滤

  • 同【语言暴力数据过滤】