用于文本生成器的一个小模块,用于筛选字符串中的错误单词。
wordfilter的Python项目详细描述
用于文本生成器的一个小模块,用于筛选 坏单词的字符串。
开始
用pip install wordfilter
安装模块>importwordfilter>wordfilter.blacklisted("does this string have a bad word in it?")False# add new words>wordfilter.add_words(["zebra","elephant"])>wordfilter.blacklisted("this string has zebra in it")True# remove a word>wordfilter.remove_words('zebra')>wordfilter.blacklisted('this string has zebra in it')False# clear the list entirely>wordfilter.clear_list()
文档
这是一个单词过滤器,改编自我在 推特机器人。它基于a list of words that I’ve hand-picked 排除在我的机器人之外:本质上,它是一个 不会说我自己。一般来说,它们是 “压迫”、“种族主义”、“性别歧视”之类的话我都不会说。
这个清单并不包罗万象,我总是在上面加上一些词。如果 您想提交问题或请求添加更多单词,请 这样做,但要明白这主要是用于我自己的项目, 我可能不同意加上某些词。(例如,我没有 有点伤脑筋,所以“狗屎”和“狗屎”永远不会出现 此列表。)
单词不区分大小写。
也注意到,由于英语的复杂性,我是 考虑任何包含坏单词的子串的内容 列入黑名单。例如,即使“同质”不是一个坏词,但是 包含子字符串“homo”并进行筛选。原因是 新俚语总是用复合词出现而我不能 可能跟得上。我愿意说几句 “同质”和“巴基斯坦”,以避免假阴性。
贡献
代替正式的形式指南,注意维护现有的 编码方式。为任何新的或更改的功能添加单元测试。绒布 并使用Grunt测试代码。
许可证
版权所有(c)2013 Darius Kazemi
根据麻省理工学院许可证获得许可。