多语言文本分析包。

lingualytics的Python项目详细描述


语言分析:简单的代码混合分析

Lingualytics是一个Python库,用于处理代码混合文本。
语言分析是由强大的库支持的,比如PytorchTransformersTextheroNLTK和{a5}。在

特点

  1. 预处理

    • 删除停止字
    • 删除标点,可选择添加自己语言的标点
    • 删除少于字符限制的单词
  2. 代表

    • 从给定的文本中找出n-gram
  3. NLP公司

    • 使用Pythorch进行分类
      • 在你的数据上训练一个分类器来执行情绪分析之类的任务
      • 用准确度、f1分数、精确度和召回率等指标评估分类器
      • 使用经过训练的标记器来标记文本
    • 一些预先训练过的拥抱脸模型,训练你可以使用的代码混合数据集

安装

使用包管理器pip安装语言分析。在

pip install lingualytics

使用

预处理

^{pr2}$

分类

列车数据路径应有4个文件 - 火车.txt - 验证.txt - 文本测试在

您只需从Github存储库下载datasets/SAIL_2017/Processed Data/Devanagari来尝试一下。在

fromlingualytics.learnerimportLearnerlearner=Learner(model_type='bert',model_name='bert-base-multilingual-cased',dataset='SAIL-2017')learner.fit()

找到最上面的n-grams

fromlingualytics.representationimportget_ngramsimportpandasaspddf=pd.read_csv("https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv")ngrams=get_ngrams(df['text'],n=2)print(ngrams[:10])

贡献

欢迎拉取请求。对于重大变化,请先打开一个问题,讨论您希望更改的内容。在

许可证

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spring freemarker多模板加载程序路径   在java插件中从控制台获取输入   java在包中创建继承类   网页抓取Java Jsoup网页抓取   java在线程内创建一个对象,而true条件具有相同的引用   java如何根据空格数拆分字符串   java新的安卓 studio更新中的配置文件“app”是什么?   java在将ArrayList写入/读取到文件时出现奇怪的问题   java Reg替换文本块第一次出现+最后一次出现   java当我单击任何RecyclerView列表项时,如何在MainActivity的EditText中显示特定的单击项?   JAVA XML删除节点仅删除第一个外观   java如何在数组中查找特定值   java SVG/矢量图形对象布尔运算(并集、交集、减法)   java在Android中创建线程需要多长时间   尝试从JBOSS联系Oracle LDAP服务器时发生java连接重置异常   java基于参数获取特定的实现实例   使用java就地修改文件内容   java MonetaryException:未加载MonetaryAmountsSingletonSpi   java接受用户的不同输入并使其触发完全相同的代码段的最短方法是什么   Spring 3.2.8应用程序中未找到java HTTP 404错误