nlp和文本挖掘中的stopwords综合包

stopwords-guilannlp的Python项目详细描述


停用字桂林NLP

这是一个自然语言处理和文本挖掘的综合停止词。

安装

Now stopwords_guilannlp is on PyPI!

  • 通过PYPI下载:
$ pip3 install stopwords_guilannlp
  • 或者克隆回购协议:
$ git clone --recursive git://github.com/JoyeBright/Sstopwords_guilannlp.git
  • 然后安装:
$ python3 setup.py install

用法

tokens = word_tokenize(s)
         filtered_tokens = []
         stopwords = stopwords_output("Persian", "nar")
         for w in tokens:
             if w not in stopwords:
                 filtered_tokens.append(w)
         return filtered_tokens
  • 注意:包不支持标记化过程。

支持的语言

  • 英语
  • 波斯语

输出类型

  • 数据帧
  • numpy数组
  • 设置
  • 列表

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
datetime如何使用JodaTime在Java中设置时间属性   java固定算法的性能时间   java如何从JMenu中获取所选项以更改文本区域的文本颜色?   java配置单元UDF传递数组<string>作为参数   javaapachebeam和BigQuery   java与PrintWriter之间的差异。printf和PrintWriter。格式方法   继承如何处理按Java版本更改的导入,以及在多个版本上编译   xml java。lang.noClassDefFoundant生成错误   java如何使用包含映射的JSON发送POST请求?   java如何在任何应用程序的JAR文件中绑定MySql数据库?   Java脚本解释器   sslhttpclientjava。网SocketException:未实现未连接的socket   java如何为Android应用程序创建类似于Cron作业的东西   java JButton+radiobox+复选框   java内存管理将文件写入内存   java这是计算对象实例的有效方法吗?   用于死锁情况的java代码?   JavaSpring容器作为新实体插入,而不是存储在表中