多语言文本分析包。
lingualytics的Python项目详细描述
语言分析:简单的代码混合分析
Lingualytics是一个Python库,用于处理代码混合文本。
语言分析是由强大的库支持的,比如Pytorch,Transformers,Texthero,NLTK和{a5}。在
特点
- 在
预处理
- 删除停止字
- 删除标点,可选择添加自己语言的标点
- 删除少于字符限制的单词
- 在
代表
- 从给定的文本中找出n-gram
- 在
NLP公司
- 使用Pythorch进行分类
- 在你的数据上训练一个分类器来执行情绪分析之类的任务
- 用准确度、f1分数、精确度和召回率等指标评估分类器
- 使用经过训练的标记器来标记文本
- 一些预先训练过的拥抱脸模型,训练你可以使用的代码混合数据集 在
- 使用Pythorch进行分类
安装
使用包管理器pip安装语言分析。在
pip install lingualytics
使用
预处理
^{pr2}$分类
列车数据路径应有4个文件 - 火车.txt - 验证.txt - 文本测试在
您只需从Github存储库下载datasets/SAIL_2017/Processed Data/Devanagari
来尝试一下。在
fromlingualytics.learnerimportLearnerlearner=Learner(model_type='bert',model_name='bert-base-multilingual-cased',dataset='SAIL-2017')learner.fit()
找到最上面的n-grams
fromlingualytics.representationimportget_ngramsimportpandasaspddf=pd.read_csv("https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv")ngrams=get_ngrams(df['text'],n=2)print(ngrams[:10])
贡献
欢迎拉取请求。对于重大变化,请先打开一个问题,讨论您希望更改的内容。在
许可证
- 项目
标签: