一个简单的文本清理包,用于在NLP期间清理文本

textif的Python项目详细描述


文本化

一个简单的NLP文本清理和规范化包

安装
pip install textify

用法

清除文本

  • 通过删除电子邮件、号码等清除文本
^{pr2}$

删除电子邮件、号码、电话号码

>>>docx.remove_emails()>>>docx.remove_numbers()>>>docx.remove_phone_numbers()

删除特殊字符

>>>docx.remove_special_characters()

替换电子邮件、号码、电话号码

>>>docx.replace_emails()>>>docx.replace_numbers()>>>docx.replace_phone_numbers()

使用文本提取器

  • 从文本中提取电子邮件、电话号码、号码
>>>fromtextifyimportTextExtractor>>>docx=TextExtractor()>>>docx.text="your text with example@gmail.com goes here">>>docx.extract_emails()

  • 杰西·阿格贝(JCharis)
  • 耶稣救了我

NB

  • 欢迎捐款
  • 注意到一个错误,请告诉我们。在
  • 非常感谢

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Grails中集成javaapplet   动态设置片段时发生java错误   JavaSpringVelocity模板电子邮件?   SpringHateOAS中java自定义json输出   java wait()和notify()相关问题   正则表达式中的单词边界是什么?   使用外部库将项目部署到glassfish后发生java NoClassDefFoundError   java为什么在这里初始化ListNode两次?   java libGDX移动三维模型   java使线程等待另一个线程的执行   正则表达式如何在java中使用正则表达式解析给定字符串   java SWT ScrolledComposite在32768像素后切断画布生成的图像