用于公共自然语言处理任务的Python包
nlprov的Python项目详细描述
NLProv:自然语言处理工具
NLProv是由Johnson&Johnson's Advanced Analytics开发的Python库 组合现有库以执行常见自然语言处理任务的团队。 它结合了几个现有的开源库,如pandas、spaCy和 scikit学习如何制作一个可以处理文本数据的管道。有 许多用户定义的参数取决于您的项目类型,例如 选择词干或柠檬化的能力。或者,你可以定义 用什么文本显式替换NaN字段。总的来说,这是一种 你开始了你的NLP任务,不管你需要什么。在
关于如何使用这个软件包的教程可以在here找到。在
安装说明
- 使用pip:
pip install nlprov
在 - 有关使用pip安装包的详细信息,请单击here。在
贡献
- 在
为了帮助开发这个软件包,你需要安装一个conda虚拟机 我们的开发人员定义的环境_环境.yml文件使用下面的命令。在
^{pr2}$- 在
然后,只需在尝试开发或运行测试时激活环境 使用下面的命令。在
conda activate nlp_env
在 - 在
完成开发或测试后,只需停用环境 使用下面的命令。在
conda deactivate
在
- 在
Docker配置
- 此代码库被停靠以生成、使用
pytest
运行所有单元测试,并执行pip打包。- 为了运行docker容器,请确保您有Docker 已在本地计算机上安装并运行。在
- 要在本地启动docker容器,只需导航到 项目目录和类型:
docker-compose up --build
- 注意:
docker-compose
包含在Docker桌面安装链接中 以上适用于MacOS和基于Windows的系统。如果执行时遇到问题docker-compose
,Navigate Here 以确保系统支持docker compose。在 - 注意:您可以在开发过程中使用
docker-compose up --build
在代码更改后快速运行测试,而无需设置/运行本地 康达环境。在
GitHub操作CI配置
- 对这个存储库的每次提交都会触发一个GitHub内建操作
.github/工作流/Python.yml位于这个项目的根。
- GitHub操作用于构建和lint NLProv包,运行测试,并执行pip打包。在
- 如果环境名称或版本更改,则Python.yml文件需要更新到 遵循新模式。在
我们的工作流程
- 我们的方法和工具
- 样式指南-PEP8 / pycodestyle
- Git策略-Git Flow
即将推出的功能
下面是要在这个包中实现的特性的路线图。如果你有 其他功能的想法,请让我们知道!在
- 预处理
- 使用自定义停止词的能力
- 双字图合并
- 用户可以选择使用哪种语言检测包
- 矢量化
- 空间预训练模型
- 空间定制模型
- 相似性度量
- 附加成对距离
- Levenshtein距离
- 字词移动距离
- 可视化
- TF-IDF公司
- 提花机
- 项目
标签: