一个简单的NLP库允许使用一个或多个文本列分析数据集。
nlp-profiler的Python项目详细描述
NLP分析器
一个简单的NLP库允许使用一个或多个文本列分析数据集。在
当给定一个数据集和一个包含文本数据的列名时,NLP Profiler返回关于文本的高级细节或低级/细粒度的统计信息。在
简而言之:可以将其看作是使用pandas.describe()
函数或在数据帧上运行Pandas Profiling,但对于包含文本列的数据集,而不是通常的列式数据集。在
目录
- What do you get from the library?
- Requirements
- Getting started 在
- Notebooks
- Screenshots
- Credits and supporters
- Changes
- License
- Contributing
你从图书馆得到什么?在
- 输入熊猫数据帧系列作为输入参数。在
- 您将获得一个新的dataframe,其中包含关于每行已解析文本的各种特性。
- 高级:情感分析、主客观分析、拼写质量检查、语法质量检查等。。。在
- 低级/粒度:句子中的字符数、字数、表情符号数、字数等。。。在
- 从上面的数字数据中,可以使用dataframe上的
pandas.describe()
来绘制描述性统计。在
请参见Jupyter部分下的屏幕截图,以及Screenshots下的屏幕截图。在
在幕后,它确实使用了许多在AI和ML社区中流行的库,但是我们也可以通过替换或添加其他库来扩展它的功能。在
提供了一个简单的notebook来说明库的用法。在
注:\u这是一项新的努力,它可能有粗糙的边缘,即可能不能做很多事情atm。这些差距中有许多是我们可以继续工作和填补的机会,因为我们继续使用它。请提供建设性的反馈,以帮助改进这个图书馆。我们最近用scaling with larger datasets实现了这一点。
要求
- Python 3.6.x或更高版本。在
requirements.txt
中描述的依赖关系。在- 高级,包括语法检查:
- 更快的处理器
- 更高的RAM容量
- 1到3 GB的工作磁盘空间(取决于数据集大小)
- (可选)
- Jupyter实验室(在您的本地计算机上)。在
- 谷歌Colab账户。在
- 卡格尔帐户。在
- 语法检查功能:
- 互联网接入
- Java 8或更高版本
入门
演示
在以下位置查看NLP Profiler库的简短演示:
安装
来自PyPi:
pip install nlp_profiler
从GitHub回购:
^{pr2}$从源代码(仅用于开发目的),请参见Developer guide
用法
importnlp_profiler.coreasnlpprofnew_text_column_dataset=nlpprof.apply_text_profiling(dataset,'text_column')
或者
fromnlp_profiler.coreimportapply_text_profilingnew_text_column_dataset=apply_text_profiling(dataset,'text_column')
请参阅Notebooks部分以获取更多的插图。在
开发者指南
请参阅Developer guide以了解如何构建、测试和贡献库。在
笔记本电脑
在成功安装库之后,重新启动Jupyter kernels或googlecolab运行时以使更改生效。在
有关用法和更多详细信息,请参见Notebooks。在
截图
信贷和支持者
变更
许可证
参考licensing(和保修)政策。在
贡献
欢迎投稿!在
请看一下CONTRIBUTING指南。在
请与更广泛的社区分享它(并为此获得信任)!在
转到NLP page
- 项目
标签: