Python lingualytics包_程序模块 - PyPI

多语言文本分析包。

lingualytics的Python项目详细描述

语言分析：简单的代码混合分析

Lingualytics是一个Python库，用于处理代码混合文本。
语言分析是由强大的库支持的，比如Pytorch，Transformers，Texthero，NLTK和{a5}。在

特点

在
预处理
- 删除停止字
- 删除标点，可选择添加自己语言的标点
- 删除少于字符限制的单词
在
在
代表
- 从给定的文本中找出n-gram
在
在
NLP公司
- 使用Pythorch进行分类
  - 在你的数据上训练一个分类器来执行情绪分析之类的任务
  - 用准确度、f1分数、精确度和召回率等指标评估分类器
  - 使用经过训练的标记器来标记文本
  在
- 一些预先训练过的拥抱脸模型，训练你可以使用的代码混合数据集
  - bert-base-multilingual-codemixed-cased-sentiment
  在
在

安装

使用包管理器pip安装语言分析。在

pip install lingualytics

使用

预处理

^{pr2}$

分类

列车数据路径应有4个文件 - 火车.txt - 验证.txt - 文本测试在

您只需从Github存储库下载datasets/SAIL_2017/Processed Data/Devanagari来尝试一下。在

fromlingualytics.learnerimportLearnerlearner=Learner(model_type='bert',model_name='bert-base-multilingual-cased',dataset='SAIL-2017')learner.fit()

找到最上面的n-grams

fromlingualytics.representationimportget_ngramsimportpandasaspddf=pd.read_csv("https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv")ngrams=get_ngrams(df['text'],n=2)print(ngrams[:10])

贡献

欢迎拉取请求。对于重大变化，请先打开一个问题，讨论您希望更改的内容。在

许可证

MIT

欢迎加入QQ群-->： 979659372

lingualytics 0.1.3

lingualytics的Python项目详细描述

语言分析：简单的代码混合分析

特点

安装

使用

预处理

分类

找到最上面的n-grams

贡献

许可证

推荐PyPI第三方库

genesis

odoo8-addon-runbot-coverage

modernp

errbot-backend-webapp

Webmaster

csvinsight

django-backupdb

andrespdf

gridaurora

nekbot.protocols.xmpp

jupyter-saagie-plugin

fakeable

engineering-tool

pypavlok

python-swiftclient

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

lingualytics 0.1.3

lingualytics的Python项目详细描述

语言分析：简单的代码混合分析

特点

安装

使用

预处理

分类

找到最上面的n-grams

贡献

许可证

推荐PyPI第三方库

genesis

odoo8-addon-runbot-coverage

modernp

errbot-backend-webapp

Webmaster

csvinsight

django-backupdb

andrespdf

gridaurora

nekbot.protocols.xmpp

jupyter-saagie-plugin

fakeable

engineering-tool

pypavlok

python-swiftclient

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签