用于文本生成器的一个小模块,用于筛选字符串中的错误单词。

wordfilter的Python项目详细描述


用于文本生成器的一个小模块,用于筛选 坏单词的字符串。

开始

pip install wordfilter

安装模块
>importwordfilter>wordfilter.blacklisted("does this string have a bad word in it?")False# add new words>wordfilter.add_words(["zebra","elephant"])>wordfilter.blacklisted("this string has zebra in it")True# remove a word>wordfilter.remove_words('zebra')>wordfilter.blacklisted('this string has zebra in it')False# clear the list entirely>wordfilter.clear_list()

文档

这是一个单词过滤器,改编自我在 推特机器人。它基于a list of words that I’ve hand-picked 排除在我的机器人之外:本质上,它是一个 不会说我自己。一般来说,它们是 “压迫”、“种族主义”、“性别歧视”之类的话我都不会说。

这个清单并不包罗万象,我总是在上面加上一些词。如果 您想提交问题或请求添加更多单词,请 这样做,但要明白这主要是用于我自己的项目, 我可能不同意加上某些词。(例如,我没有 有点伤脑筋,所以“狗屎”和“狗屎”永远不会出现 此列表。)

单词不区分大小写。

也注意到,由于英语的复杂性,我是 考虑任何包含坏单词的子串的内容 列入黑名单。例如,即使“同质”不是一个坏词,但是 包含子字符串“homo”并进行筛选。原因是 新俚语总是用复合词出现而我不能 可能跟得上。我愿意说几句 “同质”和“巴基斯坦”,以避免假阴性。

贡献

代替正式的形式指南,注意维护现有的 编码方式。为任何新的或更改的功能添加单元测试。绒布 并使用Grunt测试代码。

许可证

版权所有(c)2013 Darius Kazemi
根据麻省理工学院许可证获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Grid loadmask(true)在gxt中不起作用   java将字符串索引转换为整数   为什么Java泛型适用于基元数组,但不适用于基元数组?   java如何让Azure应用程序服务Tomcat将所有80/443流量转发到运行在同一应用程序服务上的JBoss   具有多个值的java转换映射到树?   java如何设置SQL server连接URL?   java设置了多个相互独立的JFrame   安全性在JAVA中如何使用RSAPrivateKey的密码短语?   java不能使用比Apache Velocity中更大的条件   如何在Java中打印字符串的所有排列   停止Android Studio自动导入java。sql。日期   对象简单计算器程序java   java如何在安卓中使用“&”符号作为字符串?   java Connect,为我的安卓应用程序从REST API发布和获取数据