Python corpora_专题 - Python中文网

当前热门话题： Python corpora: 本站为您提供最新、最全的corpora的Python教程、文档、代码、资源等相关内容，Python中文网技术交流社区同时还提供学习资源下载，如：电子书、IDE编辑器软件、编程视频、代码规范标准、WEB开发、GUI、科学计算与人工智能等相关内容。

本文网址：https://www.cnpython.com/tags/271560
欢迎加入QQ群-->： 979659372

关于corpora 相关联的Python项目和问题：

NLTK-如何找出在python中安装了哪些语料库？

我试图加载一些我用NLTK安装程序安装的corpora，但是我得到了一个： >>> from nltk.corpus import machado Traceback ( ...

2024-06-16 已阅读: n次

如何使用LDA（Python）从标题列表中生成主题？

我不熟悉自然语言处理。我有一个博客标题列表，例如（不是真实数据，但你明白了）： docs = ["Places to Eat", "Places to Visit", "Top 10 Things ...

2024-06-16 已阅读: n次

如何使用Gensim生成葡萄牙语单词嵌入？

我有以下问题：在英语中，我的代码使用Gensim生成成功的单词嵌入，考虑到余弦距离，相似短语彼此接近： “反应时间与误差测量”和“用户感知反应时间与误差测量的关系”之间的夹角很小，因此它们是集合中最 ...

2024-06-16 已阅读: n次

导入nltk库时未找到语料库/停止字

我试图在python 2.7中导入nltk包 import nltk stopwords = nltk.corpus.stopwords.words('english') print(st ...

2024-06-16 已阅读: n次

如何将字典存储在为特定数据集创建的genism中？

如何在genism中存储词典它是为执行LDA的特定数据集创建的。我使用的是mac os 这是我当前的代码： dictionary=corpora.Dictionary(texts) dictiona ...

2024-06-16 已阅读: n次

运行时错误：Cython扩展不可用

我已经安装了cython和gensim。但是，当我导入genism时，会出现以下情况： Traceback (most recent call last): File "C:\Users\DSP\ ...

2024-06-16 已阅读: n次

运行LDA mod的gensim的AttributeError

我试着在Gensim上运行一个简单的LDA模型： from gensim import corpora #text_data here is a list of tokens dictionary = ...

2024-06-16 已阅读: n次

如何在Gensim字典中输入由不同符号组成的序列/列表？

我有一个pandas数据帧，其中有一列包含会话数据。我按以下方式对其进行了预处理： def preprocessing(text): return [word for word in sim ...

2024-06-16 已阅读: n次

安装TextBlob时出现非零返回代码错误

我一直在尝试安装Python TextBlob，但遇到以下错误： Now downloading textblob packages [localhost] run: python -m t ...

2024-06-16 已阅读: n次

运行LDA时如何处理Gensim中的“ValueError:array is too big.”？

我作为gensim教程运行LAD的195145个文档，6636308个特性，188901082个非零条目。代码很简单： from gensim import corpora, models, sim ...

2024-06-16 已阅读: n次

为什么添加到gensim字典的文档在达到200万单词时变慢了？

我注意到，当向gensim字典添加文档时，执行时间从0.2秒跳到超过6秒，达到200万字。在下面的代码是一个快速示例。我遍历int并在每个iteraion处将数字添加到字典中。在 from gens ...

2024-06-16 已阅读: n次

NLTK包出错

我正在尝试下载nltk包。你知道吗 nltk.download() 然后，all，all-corpora和book都是红色的。当我下载all时，它会下载，过了一会儿说Done downloading ...

2024-06-16 已阅读: n次

Corpora

欢迎来到下士！====*语料库*是一个轻量级的、快速的、可扩展的语料库，能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB（BSDDB3模块）进行索引管理，以保证速度和防弹性。文 ...

2024-06-16 已阅读: n次

pycorpora

一个简单的python接口，用于darius kazemi的Corpora Project，“静态语料库的集合（语料库的复数形式）在创造怪异因特网的东西，pycorpora接口使得使用来自你的 ...

2024-06-16 已阅读: n次

tei-reader

python 3库，用于读取tei p5（lite）文件的文本内容和元数据库的重点是从文件中提取主文本内容，并提供有关文本的可用元数据。 tl；dr pip install tei-reader ...

2024-06-16 已阅读: n次

olip

#olipyolipy是一个用于生成艺术文本的python库。与大多数软件包不同，它们有一个统一的目的。奥利皮更像是一套艺术用品。每个模块都是为了帮助您实现不同的美学效果而设计的。以下是如何从命令行快 ...

2024-06-16 已阅读: n次

fowler.corpora

fowler.corpora是一个软件，用于创建用于分布的向量空间模型。语义学。可以从棕色语料库英国国家语料库 ukWaC和WaCkypedia 加权方案包括： PMI PPMI nIT ...

2024-06-16 已阅读: n次

orbis-addon-repoman

orbis的repoman插件下载语料库或单声道文件。需要安装python tkinter包（不在pypi上，请使用下载并安装您的分布式ode os版本的tkinter） ...

2024-06-16 已阅读: n次

vrt-generator

创建vrt语料库此包Python名称：vrt-generator 目前版本： vrt-generator 0.0.4 最后维护时间 ...

2024-06-16 已阅读: n次