用于公共自然语言处理任务的Python包

nlprov的Python项目详细描述


NLProv:自然语言处理工具

NLProv是由Johnson&Johnson's Advanced Analytics开发的Python库 组合现有库以执行常见自然语言处理任务的团队。 它结合了几个现有的开源库,如pandas、spaCy和 scikit学习如何制作一个可以处理文本数据的管道。有 许多用户定义的参数取决于您的项目类型,例如 选择词干或柠檬化的能力。或者,你可以定义 用什么文本显式替换NaN字段。总的来说,这是一种 你开始了你的NLP任务,不管你需要什么。在

关于如何使用这个软件包的教程可以在here找到。在

安装说明

  • 使用pip:
    pip install nlprov
    
  • 有关使用pip安装包的详细信息,请单击here。在

贡献

  • 为了帮助开发这个软件包,你需要安装一个conda虚拟机 我们的开发人员定义的环境_环境.yml文件使用下面的命令。在

    ^{pr2}$
    • 然后,只需在尝试开发或运行测试时激活环境 使用下面的命令。在

      conda activate nlp_env
      
    • 完成开发或测试后,只需停用环境 使用下面的命令。在

      conda deactivate
      

Docker配置

  • 此代码库被停靠以生成、使用pytest运行所有单元测试,并执行pip打包。
    • 为了运行docker容器,请确保您有Docker 已在本地计算机上安装并运行。在
    • 要在本地启动docker容器,只需导航到 项目目录和类型:
    docker-compose up --build
    
    • 注意:docker-compose包含在Docker桌面安装链接中 以上适用于MacOS和基于Windows的系统。如果执行时遇到问题 docker-composeNavigate Here 以确保系统支持docker compose。在
    • 注意:您可以在开发过程中使用docker-compose up --build 在代码更改后快速运行测试,而无需设置/运行本地 康达环境。在

GitHub操作CI配置

  • 对这个存储库的每次提交都会触发一个GitHub内建操作 .github/工作流/Python.yml位于这个项目的根。
    • GitHub操作用于构建和lint NLProv包,运行测试,并执行pip打包。在
    • 如果环境名称或版本更改,则Python.yml文件需要更新到 遵循新模式。在

我们的工作流程

即将推出的功能

下面是要在这个包中实现的特性的路线图。如果你有 其他功能的想法,请让我们知道!在

  • 预处理
    • 使用自定义停止词的能力
    • 双字图合并
    • 用户可以选择使用哪种语言检测包
  • 矢量化
    • 空间预训练模型
    • 空间定制模型
  • 相似性度量
    • 附加成对距离
    • Levenshtein距离
    • 字词移动距离
  • 可视化
    • TF-IDF公司
    • 提花机

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何向第二个组合框模型项添加数组值从第一个组合框所选项获取数组名称?   使用Java与WebSphere的SSL握手错误   eclipse线程“main”Java中的第一个Java程序异常。lang.NoClassDefFoundError   java将Javafx应用作为Web应用移植的最佳方式   IDE的java右JVM文件夹   java如何在基本适配器中停止文本到语音   java If block使用substring和equals方法以假值执行   在本例中,如何在java中返回多个值?   java第二个主类在maven构建期间覆盖第一个主类   如何在java中设置运行时ArrayList的泛型类型?   java从主机读取文件