Python ntap包_程序模块 - PyPI

NTAP-CSSL

ntap的Python项目详细描述

NTAP:神经文本分析管道

ntap是一个python包，它构建在tensorflow、sklearn、pandas、gensim、nltk和其他库之上，以方便使用nlp的现代方法进行文本分析的核心功能。

数据加载和文本功能化

所有NTAP功能都使用数据集对象类，该类负责从文件加载数据集、清除文本、将文本转换为功能并将结果保存到文件。

ntap.data.dataset

Dataset(source, tokenizer="wordpunct", vocab_size=5000, embed="glove",
		min_token=5, stopwords=None, stem=False, lower=True, max_len=100,
		include_nums=False, include_symbols=False, num_topics=100, 
		lda_max_iter=500)

参数

source：str，单个数据文件的路径。支持的格式：换行分隔的.json，.csv，.tsv，将pandas数据帧保存为.pkl文件
标记器：str，选择要使用的标记器。如果none，则将基于空白进行标记。选项基于单词标记器："wordpunct"…（其他当前不支持）
vocab_size：int，按频率保留顶部的vocab_size类型。用于文字袋特征，以及神经方法。如果没有，请使用所有词汇表。
embed：str，选择要用于初始化嵌入层的单词嵌入。目前仅支持手套
min_token：int表示调用clean之后要包含的文档的最小大小（按令牌数）
stopWords：iterable或str，要排除的单词集。默认值为none，不包括任何单词。选项包括列表/集合，以及指示使用已保存列表的字符串：nltk是当前唯一受支持的选项，并指示默认的nltkenglish list
stem：bool或str，如果false则不要执行stem/lemmatize，否则遵循由stem命名的词干处理过程。选项是雪球
小写：bool，如果为真则将所有字母字符转换为小写
max_len：int，建模过程中要包含的文档的最大长度（按有效令牌数）。无将导致由现有文档集计算的最大长度
包含nums：bool，如果true，则不要丢弃包含数字字符的标记。例如日期、数字和其他数字数据类型。
包含符号：bool，如果true，则不要丢弃包含非字母数字符号的标记
num-topics：int，设置在以后调用lda方法时要使用的默认主题数。
lda_max_iter：int，设置lda模型拟合期间要运行的gibbs采样的默认迭代次数

方法

数据集类有许多方法用于控制类的内部功能，这些功能由方法对象调用。最重要的独立方法如下：

数据集.设置参数（**kwargs）：
- 可以随时调用以重置数据集中的参数子集
- 待办事项：呼叫特定改装（即\u learn\u vocab）
dataset.clean（column，remove=["hashtags"，"inspections"，"links"]，mode="remove"）：移除与remove列表中的描述匹配的任何标记（在调用标记赋予器之前）。然后标记列中的文档，定义词汇表，从不符合长度条件的数据集实例中删除文档。所有这些都是违抗的由数据集中存储的参数确定列：str，表示文本文件的列名 remove：listofstr，每个项都指示要删除的令牌类型。如果none或list为空，则不删除任何标记 mode：str对于以后的迭代，可能会存储标签或链接。当前唯一的选项是删除

dataset对象支持许多特征方法（例如lda、tfidf），这些方法可以由用户直接调用，也可以在方法构造期间隐式调用（请参见方法文档）

dataset.lda（column，method="mallet"，save_model=none，load_model=none）： < >< <代码> >代码> Mallet > Java应用程序的包装。虽然可以添加lda的其他实现，但目前仅支持此功能。保存模型和加载模型当前不受支持列：str，文本列方法：仅支持"mallet" 保存模型：str，指示保存训练主题模型的路径。尚未实施加载模型：str，指示加载训练主题模型的路径。尚未实施
dataset.ddr（列、字典、**kwargs）：只有必须提前调用的方法（当前；高级版本将在内部存储字典列：数据集中包含文本的列。不必标记化。字典：str，字典文件的路径。当前支持的类型是.json和.csv。.dic将在更高版本中添加可能的kwargsincludeembed，可用于设置嵌入源（即embed="word2vec"，但尚未添加此功能）
数据集.tfidf（列）：使用gensimtfidf实现。如果以前学过vocab，请使用它。否则，重新学习并计算docterm矩阵列：str，文本列
以后的方法将包括bert，手套嵌入平均值

`示例`

下面是数据集对象的一组用例。像SVM这样的方法在其他地方有介绍，这里仅作说明之用。

from ntap.data import Dataset
from ntap.models import RNN, SVM

gab_data = Dataset("./my_data/gab.tsv")
other_gab_data = Dataset("./my_data/gab.tsv", vocab_size=20000, stem="snowball", max_len=1000)
gab_data.clean()
other_gab_data.clean() # using stored parameters
other_gab_data.set_params(include_nums=True) # reset parameter
other_gab_data.clean() # rerun using updated parameters

gab_data.set_params(num_topics=50, lda_max_iter=100)
base_gab = SVM("hate ~ lda(text)", data=gab_data)
base_gab2 = SVM("hate ~ lda(text)", data=other_gab_data)

`基本型号`

对于监督学习任务，ntap提供了两种（当前）基线方法，svm和lm。SVM使用sklearn的支持向量机分类器实现，而lm使用elasticnet（支持正则线性回归）或linear regressionfromsklearn。两个模型都支持相同类型的核心建模功能：cv，train，和predict，其中cv可选地支持网格搜索。

所有方法都是使用类似于r的公式语法创建的。基本模型如SVM和lm仅支持单个目标模型，而其他模型支持多个目标。

`ntap.models.svm`

SVM(formula, data, C=1.0, class_weight=None, dual=False, penalty='l2', loss='squared_hinge', tol=0.0001, max_iter=1000, random_state=None)

LM(formula, data, alpha=0.0, l1_ratio=0.5, max_iter=1000, tol=0.001, random_state=None)

`参数`

公式：str，包含一个~符号，将左侧（目标/因变量）与右侧（一系列+划定的文本标记）分开。右侧标记可以是给定给构造函数的数据集对象中的列，也可以是以下形式的功能调用：<；featurename>；（<；column>；）
数据：数据集，现有的数据集实例
tol：float，停止标准（不同时期的损失差异）
max-iter：int，训练期间的最大迭代次数
随机状态：int

SVM：

c：float，对应于SVM分类器中的sklearn"c"参数
dual：bool，对应于SVM分类器中的sklearn"dual"参数
惩罚：字符串，要使用的正则化函数，对应于sklearn"惩罚"参数
loss：字符串，要使用的loss函数，对应于sklearn"loss"参数

LM: < /P>

alpha：float，控制正则化。alpha=0.0对应于最小二乘回归。alpha=1.0是默认的elasticnet设置
l1_比率：浮动，l1和l2正则化之间的权衡。如果l1比值=1.0则为套索，如果l1比值=0.0则为脊形

`功能`

许多函数对lm和svm

都是通用的。
设置参数（**kwargs）
cv：
隐式支持网格搜索的交叉验证。如果给定了参数值列表（而不是单个值），则cv对所有可能的参数组合运行网格搜索
lm：cv（data，num_folds=10，metric="r2"，random_state=none）
SVM：cv（数据，num-epochs，num-folds=10，分层=真，metric="准确性"）num_epochs：要训练的epochs/迭代次数。这应该修改
折叠次数：交叉折叠次数
分层：如果为真，则使用分层折叠拆分数据（甚至参照目标变量进行拆分）
metric：用于比较来自不同参数网格的不同cv结果的度量（如果未指定网格搜索，则不进行比较并且忽略metric）
返回：类的实例
包含所有可能的分类（或回归）指标的信息，对于每个cv折叠和跨折叠的平均值
包含保存的参数集
列车目前不建议用户申请。使用cv代替
预测
目前不建议用户申请。使用cv代替
示例
from ntap.data import Dataset
from ntap.models import SVM

data = Dataset("./my_data.csv")
model = SVM("hate ~ tfidf(text)", data=data)
basic_cv_results = model.CV(num_folds=5)
basic_cv_results.summary()
model.set_params(C=[1., .8, .5, .2, .01]) # setting param
grid_searched = model.CV(num_folds=5)
basic_cv_results.summary()
basic_cv_results.params
型号
已经为ntap实现了一个基本模型：rnn。以后的模型将包括cnn和其他神经变体。所有模型类（cnn，rnn等）都有以下方法：cv，predict，以及train
在神经架构中使用文本的模型公式应使用以下语法：
"<；因变量>；~序列（<；文本列>；）"
ntap.models.rnn
RNN(formula, data, hidden_size=128, cell="biLSTM", rnn_dropout=0.5, embedding_dropout=None,
	optimizer='adam', learning_rate=0.001, rnn_pooling='last', embedding_source='glove', 
	random_state=None)
参数
公式类似于基本方法，但支持多目标（多任务学习）。格式为："hate+moral~seq（text）"
数据：数据集对象
隐藏大小：int，1层RNN类型模型中的隐藏单元数
单元格：str，RNN单元格的类型。默认为双向长短期内存（LSTM）单元。选项包括bilstm，lstm，gru，和bigru（双向门循环单元）
rnn_dropout：float，在应用于rnn输出的层中，网络中的参数在dropout期间随机归零的比例。如果无>，不申请退学（不建议）
嵌入中断：str，未实现
优化器：str，培训期间使用的优化器。选项有：adam，sgd，momentum，和rmsprop
学习率：培训期间的学习率
rnn_池：str或int。如果int，则模型具有自我注意，并且大小为rnn_pooling的前向层应用于rnn层的输出以产生注意字母。如果是字符串，可能的选项是last（默认RNN行为，其中最后一个隐藏向量作为句子表示，先前的状态被删除）mean（整个序列中的平均隐藏状态）和max（选择最大隐藏向量）
嵌入源代码：str，可以是手套或（其他未实现的）
随机状态：int
功能
cv（数据，num椆folds，num椆epochs，comp='精度'，model椆dir=none）如果为特定参数指定了多个值，则自动执行网格搜索
数据：要对其执行cv的数据集
num_folds：int
comp：str，比较不同参数网格的度量（如果没有网格搜索，则不适用）
model\u dir：如果none，则训练的模型保存在临时目录中，然后在脚本退出后丢弃。否则，cv会尝试将每个模型保存在model\u dir指定的路径中
返回：cv_results具有最佳模型统计信息（如果是网格搜索）和最佳参数（不支持）的实例
列车（数据，num-epochs=30，批量大小=256，索引=none，模型路径=none）由cv调用的方法，可以独立调用。可以对所有数据（索引=无）或指定子集进行训练。如果model\u path是none，则不保存模型，否则尝试将模型保存在model\u path
索引：要么是none（对所有数据进行训练），要么是int的列表，其中每个值都是（0，len（data）-1）范围内的索引
预测（数据，模型路径，索引=无，批量大小=256，检索=列表（））根据新数据进行预测。要求保存的模型存在于model\u路径
索引：要么是none（对所有数据进行训练），要么是int的列表，其中每个值都是（0，len（data）-1）范围内的索引
retrieve：包含字符串列表，这些字符串指示在预测期间要检索哪些模型变量。包括：rnn_alpha（如果是注意力模式）和hidden_states（任何模式）
返回：带{变量名：值列表}的字典。内容是每个目标变量和在retrieve中给定的任何模型变量的预测值。
from ntap.data import Dataset
from ntap.models import RNN

data = Dataset("./my_data.csv")
base_lstm = RNN("hate ~ seq(text)", data=data)
attention_lstm = RNN("hate ~ seq(text)", data=data, rnn_pooling=100) # attention
context_lstm = RNN("hate ~ seq(text) + speaker_party", data=data) # categorical variable
base_model.set_params({"hidden"=[200, 50], lr=[0.01, 0.05]}) # enable grid search during CV

# Grid search and print results from best parameters
base_results = base_model.CV()
base_results.summary()

# Train model and save. Predict for 6 specific instances and get alphas
attention_lstm.train(data, model_path="./trained_model")
predictions = attention_lstm.predict(data, model_path="./trained_model",
							indices=[0,1,2,3,4,5], retrieve=["rnn_alphas"])
for alphas in predictions["rnn_alphas"]:
	print(alphas)  # prints list of floats, each the weight of a word in the ith document
即将推出…
mil（公式，数据，…）
未实现
han（公式，数据，…）
未实现
cnn（）
未实现
ntap.data.tagme
未实现
标记名（token="system"，p=0.15，tweet=false）
令牌（str）：个人标记名令牌。用户可以通过创建帐户。DEFault behavior（"system"）假设在安装ntap期间设置了tagme标记。
成员：
获取标记（字符串列表）
将摘要和类别存储为成员变量
reset（）
摘要：实体id的字典：摘要文本…}
类别：实体id的字典{类别1，类别2，}
data = Dataset("path.csv")
data.tokenize(tokenizer='tweettokenize')
abstracts, categories = data.get_tagme(tagme_token=ntap.tagme_token, p=0.15, tweet=False)
# tagme saved as data object at data.entities
data.background_features(method='pointwise-mi', ...)  # assumes data.tagme is set; creates features
saves features at data.background

background_mod = RNN("purity ~ seq(words) + background", data=data)
background_mod.CV(kfolds=10)
ntap.data.tacit
未实施。包装默认实例
tacit（path_to_tacit_目录，params to create tacit session）
标签：
数据
方法
标记
模型
data
参数
model
cv
cssl
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
aliyun-python-sdk-schedulerx2-test
阿里云Python sdk的schedulerx2模块。
django-vendor
Django应用程序工具包，用于在线销售数字和实物商品。
tencentcloud-sdk-python-gpm
腾讯云Python Gpm SDK
tiramisu-asr
使用Tensorflow 2的几乎先进的自动语音识别
gibiga-distributions
高斯分布
rfc-http-validate
验证XML2RFC文档中的HTTP消息
nbimageviewer
nbimageviewer是一个Python库，用于Jupyter笔记本的快速高效的图像可视化。
sqlight
SQLite、MySQL、PostgreSQL的轻量级包装器。
chromatose
个人调色板集合和迷你调色板可视化工具
torcharc
通过指定体系结构来构建Pythorch网络。
simple-proxypool
简单代理池+代理验证
transcribe-compare
语音增益比较转录
bagpipe
未提供项目说明
test-package-ag
小测试包
flockfile
基于文件锁定的简单锁定文件类。

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        

                                                下载文件
                                            
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  praveen9
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何提高Djang的410误差
如何提高doc2vec模型中两个文档（句子）的余弦相似度？
如何提高Docker的日志限制？|[输出已剪裁，达到日志限制100KiB/s]
如何提高DQN的性能？
如何提高EasyOCR的准确性/预测？
如何提高Euler#39项目解决方案的效率？
如何提高F1成绩进行分类
如何提高FaceNet的准确性
如何提高fft处理的精度？
如何提高Fibonacci实现对大n的精度？
如何提高Flask与psycopg2的连接时间
如何提高FosterCauer变换的scipy.signal.invres（）的数值稳定性？
如何提高gae查询的性能？
如何提高GANs用于时间序列预测/异常检测的结果
如何提高gevent和tornado组合的性能？

ntap 1.0.8

ntap的Python项目详细描述

NTAP:神经文本分析管道

数据加载和文本功能化

ntap.data.dataset

参数

方法

示例

基本型号

ntap.models.svm

参数

功能

示例

型号

ntap.models.rnn

参数

功能

即将推出…

ntap.data.tagme

ntap.data.tacit

推荐PyPI第三方库

aliyun-python-sdk-schedulerx2-test

django-vendor

tencentcloud-sdk-python-gpm

tiramisu-asr

gibiga-distributions

rfc-http-validate

nbimageviewer

sqlight

chromatose

torcharc

simple-proxypool

transcribe-compare

bagpipe

test-package-ag

flockfile

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

`示例`

`基本型号`

`ntap.models.svm`

`参数`

`功能`

`ntap.models.rnn`

`功能`

`即将推出…`

`ntap.data.tagme`

`ntap.data.tacit`

`推荐PyPI第三方库`

导航栏

项目链接

标签