清理非结构化文件的正式过程是什么

2024-05-15 05:01:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要一些帮助。。我不熟悉NLP和非结构化数据清理。。有人能回答下列问题吗。。。谢谢

  1. 需要帮助ReGEX识别诸如男性和女性之类的词或更一般的词,如单词和词组或某物,去掉在开始或结束时出现的下划线,而不是中间的下划线。在
  2. 我想知道清理数据的正式过程,比如清理非结构化数据需要遵循哪些步骤,我问这个问题是因为我正在进行词法化(使用词性词组),并将常见的单词(something,something)替换为something\u something。那么我应该遵循什么步骤呢?我现在正在执行以下操作-标记化\u clean>;remove_numbers>;remove_url>;remove_slash>;remove_cross>;remove_humpen_underline>;lemmatize_sentence>;将_words_u u been_3(len小于3的单词)>;remove_simlutaneous(同时出现多次的单词,例如death)死亡)>;删除位置>;删除子弹>;移除停止>;移除同步

我应该在这些步骤中做些不同的事情吗?在

  1. 我也有一些词,比如(group'shealthplan becauseeetheone of followingQualifyingEventShapePens),(whenyouuseanon_networkprovider),(per\xad),(vlfldq\x10vxshuylvhg) 我该怎么处理?完全忽略它们还是尝试改进它们?在

我的最终目标是将文档分为Yes和No类。欢迎提出任何建议。在

如有需要,将提供更多的例子和解释。在


Tags: 数据gtnlp过程步骤单词somethingremove
1条回答
网友
1楼 · 发布于 2024-05-15 05:01:56
  1. 正则表达式必须允许__abc__吗?否则,(\b_[a-zA-Z]+\s)|(\s[a-zA-Z]+_\b)|(\s_[a-zA-Z]+_\b)

  2. 你解决了什么问题?你准备分类文本吗。?

  3. 你必须区分错误和符号序列。有一些科学的方法可以做到这一点,例如与语料库词的比较、带注释的后缀树等。

相关问题 更多 >

    热门问题