从csv文件中删除包含黑名单单词的行。
csvcleaner的Python项目详细描述
CSV Cleaner是一个Apache 2.0许可的Python库,它删除行 包含CSV文件中的黑名单单词
说明
`python >>> import csvcleaner >>> f = csvcleaner.CSVCleaner() >>> f.run('/path/to/file.csv') `
当调用run时,csv cleaner将遍历csv文件中的每一行并搜索黑名单中的单词。
当一行因为包含黑名单单词而被拒绝时,它将被移到[name]-rejected.csv文件中。接受的行被移动到[name]-accepted.csv文件两个文件与原始csv文件保存在同一目录中。
安装
要安装csv cleaner,只需运行:
`bash $ pip install csvcleaner `
参数
CSVCleaner接受几个参数:
`python >>> import csvcleaner >>> f = csvcleaner(blacklist=[],replace_chars=[], configure=True, lowercase=True, strict=False) `
####黑名单
用于确定行是否被拒绝的字符或单词的list。
默认值:[](除非configure是True)
更换字符
一种list的单词或字符,用空格代替,以使单词检测更准确和有效。
默认值:[](除非configure是True)
配置
当True时,csv cleaner将为blacklist和replace_chars使用推荐列表。只有在类实例化期间写入blacklist和replace_chars或包含空列表时,才会使用这些建议的列表。如果要为blacklist和replace_chars提供自定义列表,请设置为False。
默认值:True。
####小写
当True时,所有字符和字符串都将转换为小写,以便更准确地检测单词。当一行插入[name]-accepted.csv或[name]-rejected.csv时,它的原始大小写将保留。如果大小写匹配很重要,请设置为False。
默认值:True。
严格的
当True时,可能包含(例如,模糊匹配)黑名单单词或字符的行将被拒绝。
默认值:False。
黑名单
csv cleaner包含一个黑名单,当configure是True并且 blacklist为空。这个黑名单由[shutterstock]维护(https://github.com/shutterstock/) 在[github](https://github.com/shutterstock/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words)上。