一个简单的文本清理包,用于在NLP期间清理文本

textif的Python项目详细描述


文本化

一个简单的NLP文本清理和规范化包

安装
pip install textify

用法

清除文本

  • 通过删除电子邮件、号码等清除文本
^{pr2}$

删除电子邮件、号码、电话号码

>>>docx.remove_emails()>>>docx.remove_numbers()>>>docx.remove_phone_numbers()

删除特殊字符

>>>docx.remove_special_characters()

替换电子邮件、号码、电话号码

>>>docx.replace_emails()>>>docx.replace_numbers()>>>docx.replace_phone_numbers()

使用文本提取器

  • 从文本中提取电子邮件、电话号码、号码
>>>fromtextifyimportTextExtractor>>>docx=TextExtractor()>>>docx.text="your text with example@gmail.com goes here">>>docx.extract_emails()

  • 杰西·阿格贝(JCharis)
  • 耶稣救了我

NB

  • 欢迎捐款
  • 注意到一个错误,请告诉我们。在
  • 非常感谢

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java的单元测试测试用例库。util。列出实现   java通过超类进行序列化/反序列化   java Android获取设备语言ISO字符串   java如何打开广告的行动。移动   Eclipse IDE for(嵌入式C/C++)开发者202012:经典的深色主题深黑色背景和菜单中的文本   java使用不同的内容动态创建TableView(JavaFX)   java JAXB将多个同名节点解组   java ClassDefNotFoundException,即使类由类加载器加载(服务器上安装了多个应用程序)   java有没有办法关闭在后端生成的MqttClient线程?   html如何在网站上的java小程序中包含图像?   java无法访问已分配给超类引用的子类实例变量   java在TableViewer中双击打开对话框   列出如何创建ListNode。JAVA   java如何从文本中输出的数组中放入随机图像