检测俄语文本中的脏话并对其进行处理
djantimat的Python项目详细描述
detect dirty slang in russian text and process it.<
>当然,打击俄语非规范词汇是非常困难的,<
,而这个模块并不要求一个单一的胜利,但在这场斗争中,它可以帮助
。在不同的时间,在一个被遗忘的网站上的单词列表和正则表达式,作为模块的基础,,如果有人发现自己的作者,
,我很高兴是一个作者来指定或删除的propertrials部分的要求。
>模块的基础是两个原则>通过pymorphy2https//pypi.python.org/pypi/pymorphy2/<
与预先准备的数据库的比较<
*基于正则表达式的文本分析。<
>可以使用任何一种或另一种方式。<
。选项工作速度更快,但不准确。但它的作品以外的Django。
,第一个版本是缓慢的,但它很容易训练,添加单词到列表。
。第一个版本也可以使用以外的Django,但你必须自己去清理数据库联合国日刊:www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Sp/latestc.pdf www.un.org/Docs/journal/Sp/latestc.pdf www.un.org/Docs/journal/Sp
>当然,打击俄语非规范词汇是非常困难的,<
,而这个模块并不要求一个单一的胜利,但在这场斗争中,它可以帮助
。在不同的时间,在一个被遗忘的网站上的单词列表和正则表达式,作为模块的基础,,如果有人发现自己的作者,
,我很高兴是一个作者来指定或删除的propertrials部分的要求。
>模块的基础是两个原则>通过pymorphy2https//pypi.python.org/pypi/pymorphy2/<
与预先准备的数据库的比较<
*基于正则表达式的文本分析。<
>可以使用任何一种或另一种方式。<
。选项工作速度更快,但不准确。但它的作品以外的Django。
,第一个版本是缓慢的,但它很容易训练,添加单词到列表。
。第一个版本也可以使用以外的Django,但你必须自己去清理数据库联合国日刊:www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Ch/latestc.pdf www.un.org/Docs/journal/Sp/latestc.pdf www.un.org/Docs/journal/Sp/latestc.pdf www.un.org/Docs/journal/Sp