垃圾探测器

junkdetect的Python项目详细描述


垃圾,不是垃圾探测器

这个工具只做一个简单的任务:检测各种语言的垃圾文本,而不是垃圾文本。 就像那个著名的hotdog not-hotdog,但应用于自然语言文本。 测试提取、解压缩和/或解密自然语言文本的工具非常有用。在

设置

使用fairseq

# Optionally create a brand new conda environment for this#conda create -n junkdetect python=3.7#conda activate junkdetect# Install: use only one of these methods# 1. from pypi; recommended
pip install junkdetect

# 2. latest master branch
pip install git+https://github.com/thammegowda/junkdetect

# 3. for development
git clone https://github.com/thammegowda/junkdetect \&&cd junkdetect \&& pip install --editable .

如何使用

一旦您通过pip安装它,就可以使用junkdetect或{}从命令行调用

^{pr2}$

输出是每个输入一行,两列用\t分隔。 第一列有perplexity:较低的值(即接近0.0)表示垃圾,较高的值(接近1.0)表示不垃圾。如果您不想在输出中返回输入语句,请将它们删掉——只需使用junkdetect | cut -f1 > scores.txt

这是怎么回事

junkdetect看起来只不过是几行python代码,但在幕后隐藏了大量的复杂性。
它使用了来自神经(掩蔽/自回归)语言模型的困惑,这些模型是根据100多种语言的万亿字节网络文本训练而来的。
具体地说,它使用facebooksresearch从torch.hub检索的XML-R。 引用XML-R和their paper, (see Table 6)的原始开发人员

XLM-R handles the following 100 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Assamese, Azerbaijani, Basque, Belarusian, Bengali, Bengali Romanized, Bosnian, Breton, Bulgarian, Burmese, Burmese, Catalan, Chinese (Simplified), Chinese (Traditional), Croatian, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Hausa, Hebrew, Hindi, Hindi Romanized, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Macedonian, Malagasy, Malay, Malayalam, Marathi, Mongolian, Nepali, Norwegian, Oriya, Oromo, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Sanskri, Scottish, Gaelic, Serbian, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tamil, Tamil Romanized, Telugu, Telugu Romanized, Thai, Turkish, Ukrainian, Urdu, Urdu Romanized, Uyghur, Uzbek, Vietnamese, Welsh, Western, Frisian, Xhosa, Yiddish.

背景和致谢:

开发商:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
ArrayList中实体对象上的JAVA泛型   带Redis的爪哇芹菜vs单用Redis   java在设备面向横向时隐藏标题栏/通知栏   java JXTreeTable:如何使用ComponentProvider为一列设置渲染器   java创建异常的成本与记录异常的成本相比   java在方法参数中使用setter传递新对象   java在一个类中的方法与另一个类中的方法交互时遇到问题   java如何迭代2个大小相等的ArrayList   Java getDesktop()。open在Windows中工作,但在Mac中不工作   从tomcat切换到jetty后的java“无法启动嵌入式容器”,Spring引导   java如何使用void方法   java如何在解组时在JAXB的ValidationEventHandler中获取节点值?   如何使用Akka Java API创建不响应的TCP接收器   JavaScriptjQuery在java中将记录上传到数据库时的进度条   如何在重新绘制时在java小程序中显示上一个图像