清理非结构化文件的正式过程是什么

2024-05-15 05:01:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要一些帮助。。我不熟悉NLP和非结构化数据清理。。有人能回答下列问题吗。。。谢谢

需要帮助ReGEX识别诸如男性和女性之类的词或更一般的词，如单词和词组或某物，去掉在开始或结束时出现的下划线，而不是中间的下划线。在
我想知道清理数据的正式过程，比如清理非结构化数据需要遵循哪些步骤，我问这个问题是因为我正在进行词法化（使用词性词组），并将常见的单词（something，something）替换为something\u something。那么我应该遵循什么步骤呢？我现在正在执行以下操作-标记化\u clean>；remove_numbers>；remove_url>；remove_slash>；remove_cross>；remove_humpen_underline>；lemmatize_sentence>；将_words_u u been_3（len小于3的单词）>；remove_simlutaneous（同时出现多次的单词，例如death）死亡）>；删除位置>；删除子弹>；移除停止>；移除同步

我应该在这些步骤中做些不同的事情吗？在

我也有一些词，比如（group'shealthplan becauseeetheone of followingQualifyingEventShapePens），（whenyouuseanon_networkprovider），（per\xad），（vlfldq\x10vxshuylvhg）我该怎么处理？完全忽略它们还是尝试改进它们？在

我的最终目标是将文档分为Yes和No类。欢迎提出任何建议。在

如有需要，将提供更多的例子和解释。在

Tags：数据 gt nlp 过程步骤单词 something remove

1条回答

网友

1楼 · 发布于 2024-05-15 05:01:56