一个简单的NLP库允许使用一个或多个文本列分析数据集。

nlp-profiler的Python项目详细描述


NLP分析器

LicenseGitHub actionsCode coverageSourceryCodeacPyPI versionPython versionsPyPi stats

一个简单的NLP库允许使用一个或多个文本列分析数据集。在

当给定一个数据集和一个包含文本数据的列名时,NLP Profiler返回关于文本的高级细节或低级/细粒度的统计信息。在

简而言之:可以将其看作是使用pandas.describe()函数或在数据帧上运行Pandas Profiling,但对于包含文本列的数据集,而不是通常的列式数据集。在

目录


你从图书馆得到什么?在

  • 输入熊猫数据帧系列作为输入参数。在
  • 您将获得一个新的dataframe,其中包含关于每行已解析文本的各种特性。
    • 高级:情感分析、主客观分析、拼写质量检查、语法质量检查等。。。在
    • 低级/粒度:句子中的字符数、字数、表情符号数、字数等。。。在
  • 从上面的数字数据中,可以使用dataframe上的pandas.describe()来绘制描述性统计。在

请参见Jupyter部分下的屏幕截图,以及Screenshots下的屏幕截图。在

在幕后,它确实使用了许多在AI和ML社区中流行的库,但是我们也可以通过替换或添加其他库来扩展它的功能。在

提供了一个简单的notebook来说明库的用法。在

注:\u这是一项新的努力,它可能有粗糙的边缘,即可能不能做很多事情atm。这些差距中有许多是我们可以继续工作和填补的机会,因为我们继续使用它。请提供建设性的反馈,以帮助改进这个图书馆。我们最近用scaling with larger datasets实现了这一点。

要求

  • Python 3.6.x或更高版本。在
  • requirements.txt中描述的依赖关系。在
  • 高级,包括语法检查:
    • 更快的处理器
    • 更高的RAM容量
    • 1到3 GB的工作磁盘空间(取决于数据集大小)
  • (可选)
    • Jupyter实验室(在您的本地计算机上)。在
    • 谷歌Colab账户。在
    • 卡格尔帐户。在
    • 语法检查功能:
      • 互联网接入
      • Java 8或更高版本

入门

演示

在以下位置查看NLP Profiler库的简短演示:

安装

来自PyPi:

pip install nlp_profiler

从GitHub回购:

^{pr2}$

从源代码(仅用于开发目的),请参见Developer guide

用法

importnlp_profiler.coreasnlpprofnew_text_column_dataset=nlpprof.apply_text_profiling(dataset,'text_column')

或者

fromnlp_profiler.coreimportapply_text_profilingnew_text_column_dataset=apply_text_profiling(dataset,'text_column')

请参阅Notebooks部分以获取更多的插图。在

开发者指南

请参阅Developer guide以了解如何构建、测试和贡献库。在

笔记本电脑

在成功安装库之后,重新启动Jupyter kernels或googlecolab运行时以使更改生效。在

有关用法和更多详细信息,请参见Notebooks。在

截图

Screenshots

信贷和支持者

CREDITS_AND_SUPPORTERS.md

变更

CHANGELOG.md

许可证

参考licensing(和保修)政策。在

贡献

欢迎投稿!在

请看一下CONTRIBUTING指南。在

请与更广泛的社区分享它(并为此获得信任)!在


转到NLP page

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java FirebaseInstanceId。getInstance()始终为空   linux Java执行文件错误   javaspringboot:如何使用Ajax在springboot和Thymeleaf中创建进度条?   java禁用在安卓上使用传单时启用setJavaScriptEnabled   java如何在主体中发布原始类型JSON数据?   消除JAVA While循环中的额外输出   如何在java中直接将基本数据类型分配给自定义类   java为什么addNode()方法返回编译错误“类型中的方法…不适用于参数…”,我该如何修复它?   java惰性合成可观察对象   eclipse Java Blackberry位图单击   java Android:AsyncTask对象[]无法在doInBackground中强制转换   java有没有办法重构或改进这段代码?   java如何使用系统以十六进制打印字节。出来普林顿?   多线程如何在我的java聊天室中调试“java.net.UnknownHostException”?   java如何从Google App Engine下载应用程序源文件   java如何在Spring Data Mongo的聚合$group中使用类似$dateToString   java IBM websphere application server未在MyEclipse8中启动。0