这是中文文本的数据扩充

textda的Python项目详细描述


这是python3中文文本的数据扩充

用法

您有两个函数用于中文文本数据扩充

安装textda

PIP安装:

pip install textda
  1. 您可以使用data_扩展来扩展数据
fromtextda.data_expansionimport*print(data_expansion('生活里的惬意,无需等到春暖花开'))

输出:

['生活里面的惬意,无需等到春暖花开','生活里的等到春暖花开','生活里无需惬意,的等到春暖花开','生活里的惬意,无需等到春暖花开','生活里的惬意,并不需要等到春暖花开','生活无需的惬意,里等到春暖花开','生活里的惬意,等到无需春暖花开']

参数解释:

:param sentence: input sentence text
:param alpha_sr: Replace synonym control param. bigger means more words are Replace
:param alpha_ri: Random insert. bigger means more words are Insert
:param alpha_rs: Random swap. bigger means more words are swap
:param p_rd: Random delete. bigger means more words are deleted
:param num_aug: How many times do you repeat each method
  • 可以使用参数alpha_sr、alpha_ri、alpha_rs、p_rd、num_aug来控制输出。

    如果设置alpha_ri且alpha_rs为0,则表示对它使用线性分类器,并且对单词位置不敏感

    像这样:

    fromtextda.data_expansionimport*print(data_expansion('生活里的惬意,无需等到春暖花开',alpha_ri=0,alpha_rs=0))

    输出:

    ['生活里的惬意,无需等到春暖花开',',无需春暖花开','生活里面的惬意,无需等到春暖花开','生活里的惬意,需等到春暖花开']
  1. 您可以使用translate_批处理如下:
fromtextda.youdao_translateimport*dir='./data'translate_batch(os.path.join(dir,'insurance_train'),batch_num=30)
# translate results:  chinese->english and english -> chinese

颜色碰掉了一个角不延迟,但事情或他们不赠送,或发送,眉笔打开已经破碎,磨山楂,也不打破一只手,轻轻刷掉,持久性不长,
这个用户没有填写评价内容
颜色非常不喜欢它
不说话,缓慢的新领域
不太容易染好骑吗
不是很好我喜欢!
没有颜色的眼影
应该有大礼物盒眼影,礼物不礼物盒,没有一起破碎粉碎好的眼影不买礼物清洁剂脏就像商品是压力
没有生产日期,我不知道是否真实,总是觉得有点奇怪
是一个小飞粉吗
但是一些混合的颜色
有几次,现在这个东西,笔是空的
眼影有点小,少一点。
不好的颜色,粉红色
明星不想买,坏了,不容易,不要在乎太多!
一开始我已经联系快递,快递一直拖,说他将返回将联系快递服务
画不是,是不好的
物理和照片有很大的区别
不要把眼影刷不是很方便
感觉好干,颜色更暗
打破了在运输途中,有点太脆弱…
盒子有点坏了,还没有发送。

参数解释:

:param file_path: src file path
:param batch_num: default 30
:param reWrite: default True. means you can rewrite file , False means you can append data after this file.
:param suffix: new file suffix

参考:

https://github.com/jasonwei20/eda_nlp

ICLR2019研讨会论文代码:提高文本分类任务性能的简单数据增强技术。https://arxiv.org/abs/1901.11196

许可证

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java找不到当前线程的会话   同步Java同步方法调用非同步方法   这段代码的java时间复杂度是如何列出一个集合的所有子集的?   java Jetty SslConnectionFactory nextProtocol   为什么在java集合中使用游标而不是for循环   java如何对长函数进行单元测试?   如何从java中的文本输入创建数组   java工具栏内容未显示,尽管出现了片段内容   java MediaPlayer无法处理本地文件   java在多次读取时,从TCP服务器读取的数据将挂起   java组织。springframework。数据领域无法将PageImpl强制转换为   java如何使用@WithMockUser并从属性文件中传递用户名和密码?   JavaSpringBootGradle插件2。x如何使用自定义启动器布局工厂   sockets Java客户端和服务器之间使用字符串等进行通信的“行业标准”方法是什么   java变量引用不存在的资源:${project\u loc:project\u name}   搜索如何返回LDAP Java中所有用户的特定属性?   JDK1.8.016x的java密钥斗篷代理问题   spring如何使用Java中的Exchange获取邮件   java Kotlin+Dagger 2:Dagger*文件不会生成   如何在传入的double上执行操作,然后在Java中返回