简单易懂的语言

nlpeas的Python项目详细描述


Travis Build Statuspypi Version

自然

轻松构建NLP管道

Disclaimer: This is in Alpha stage, lot of things can go wrong. It could possibly change your Elasticsearch Data the API is not fixed yet and even the name NLPeasy might change.

  • 免费软件:Apache软件许可证2.0

使用

要使这个示例完全工作,您需要至少在3.6版本中安装Python。 你还需要安装和启动

关于终端问题:

python -m venv venv
source venv/bin/activate
pip install nlpeasy scikit-learn
python -m spacy download en_core_web_md

本例中使用包scikit-learn来获取新闻组数据并对其进行预处理。 最后一个命令下载英语语言的spacy模型- 对于以下内容,您至少需要有md(=medium)版本,其中包含wordvectors。在

^{pr2}$

让我们在Elastic/Kibana之外找点乐子-但这需要pip install matplotlib

importnumpyasnpfromscipy.cluster.hierarchyimportdendrogram,linkageimportmatplotlib.pyplotaspltgrouped=news_enriched.loc[~news_enriched.message_vec.isna()].groupby('newsgroup')group_vec=grouped.apply(lambdaz:np.stack(z.message_vec.values).mean(axis=0))clust=linkage(np.stack(group_vec),'ward')# calculate full dendrogramplt.figure(figsize=(10,10))plt.title('Hierarchical Clustering Dendrogram Newsgroups')plt.xlabel('sample index')plt.ylabel('distance')dendrogram(clust,leaf_rotation=0.,# rotates the x axis labelsleaf_font_size=8.,# font size for the x axis labelslabels=group_vec.index,orientation='left')plt.show()

安装

先决条件:

  • Python3(我们使用Python3.7)
  • 弹性:几种可能性
  • 预训练模型:参见下面的Spacy语言模型和单词向量

建议使用虚拟环境:

cd$PROJECT_DIR
python -m venv venv
source venv/bin/activate

每当您打开一个新的终端时,必须重复源语句。在

然后安装

pip install nlpeasy

或GitHub的开发版本:

pip install --upgrade git+https://github.com/d-one/nlpeasy

如果您想使用spaCy语言模型,请下载它们(90-200MB),例如

python -m spacy download en_core_web_md
# and/or
python -m spacy download de_core_news_md

如果要使用预训练的FastText-Wordvectors(每个~7GB):

curl -O https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.en.zip
curl -O https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.de.zip

如果要安装虚拟主机,请使用虚拟主机:

pip install jupyterlab

开发

要在开发模式下安装此模块,即更改文件并重新加载模块:

git clone https://github.com/d-one/nlpeasy
cd nlpeasy

建议使用虚拟环境:

python -m venv venv
source venv/bin/activate

以编辑模式安装版本:

pip install -e .

在Jupyter中,更改文件时可以重新加载代码,如:

%load_extautoreload%autoreload2

特点

  • 熊猫管道
  • 支持任何扩展-现在包括一些Regex,spaCy,vaderemotation
  • 将结果写入ElasticSearch
  • 自动生成Kibana仪表板
  • 如果没有本地或远程安装,请在Docker中启动Elastic
  • Apache许可证2.0

学分

这个包是用Cookiecutter和[audreyr/cookiecutter-pypackage]https://github.com/audreyr/cookiecutter-pypackage项目模板创建的。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java客户端与服务器和JPA事务的对话   java Any DLL导入会抛出一个不满意的链接错误,尽管DLL似乎已加载   java如何获得只有他的电子邮件Firebase Realtime才知道的用户结构   PlayFramework2.0Java游戏!启动问题   java创建倒计时计时器   在java中按id排序Akka流   带有嵌入式Jetty静态资源的java Spring MVC   java如何避免Jackson获取标记为FetchType的字段。懒惰的   java Netbeans Ascii unicode字符不工作base64编码解码   JAVAME:对Java向量进行排序   适合java的设计模式   java ParDo函数未在Apache BEAM中等待窗口   从JNI调用main()入口点时,java new JFrame()崩溃   java试图理解JNI中的C函数调用。H   java如何在hibernate 5.3中使用键贡献类型   Javafx中屏幕之间的java参数   java将图像转换为SVG   java Read xls文件,API POI异常初始化记录0x203(NumberRecord),剩余4个字节尚待读取   swing将选项卡添加到jTabbedPane,其中每个选项卡都有一个名为java的文本区域   java While循环只在主体中运行一次