textcleaner:文本数据预处理库

textcleaner的Python项目详细描述


text清洁器v0.4.26

文本清理程序是用于文本数据预处理的实用程序库。使用它 在将文本数据传递给模型之前。

website-了解更多信息

功能!

  • 干洗工在一个电话里完成以下所有工作!或

  • 删除不必要的空行

  • stip out a perticular character or default one

  • 如果需要,将所有字符转换为小写

  • 从整个文本中删除数字、符号和停止字

  • 在一次调用中标记文本数据

  • 由nltk支持的词干处理和元素化

    The goal is to make basic cleaning of data hassle free. Most of the developers who are working with text data have faced this situation where data is not consumable and they end up wasting their time on these issues rather than fine tunning the model and get better accuracy. In that scenario this library can be useful and save you a tone of time.

技术

textcleaner使用许多开源项目来正常工作:

  • NLTK-用于高级清洁
  • REGEX-用于正则表达式

当然,textcleaner本身是开源的,在github上有一个public repository

安装

textcleaner需要Python 3.x 去跑步。

如果尚未安装依赖项,请安装它!

pip install regex
  • text清洁剂:
pip install textcleaner

pip install textcleaner==0.4.26

使用量

importtextcleanerastctc.main_cleaner('<FILE_NAME>')#ortc.document('<FILE_NAME>')

上面的命令将文本文件转换为单词列表 打扫。函数的默认响应是list useop 参数并将其设置为“words”,您将得到一个简单的单词列表。

待办事项

  • 更高级的功能
  • 能够读取更多格式而不仅仅是.txt

许可证

麻省理工学院

免费软件,见鬼!

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java返回调用函数中的更新值   java如何停止小程序中计数变量的错误递增?   java Firebase数据库如何从1引用和等于2引用中获取一些值以获取其键和值   用于从SD卡获取图像的java FileNotFoundException   带有扫描仪的Java应用程序中出现字符串错误。Next()与NextLine()以及为什么我会出错?   java刷新JTable,以便显示插入的数据   java IE不支持通过JSF Trinidad的SVG查看器   Java USB游戏控制器库   java JSON解析错误:无法构造实体类的实例   web服务java。lang.NoClassDefFoundError:com/sun/tools/javac/Main SOAP UI   C++调用GetFieldID在JNI中恢复自定义java类成员ID时,陷入了奇怪的崩溃   java JavaFX从gui接收事件后返回主线程   java将模拟注入Spring测试Mockito+Spring+TestNG   java如何调用ArrayList中的每个数组并按年龄对ArrayList进行排序?