我需要一些帮助。。我不熟悉NLP和非结构化数据清理。。有人能回答下列问题吗。。。谢谢
- 需要帮助ReGEX识别诸如男性和女性之类的词或更一般的词,如单词和词组或某物,去掉在开始或结束时出现的下划线,而不是中间的下划线。在
- 我想知道清理数据的正式过程,比如清理非结构化数据需要遵循哪些步骤,我问这个问题是因为我正在进行词法化(使用词性词组),并将常见的单词(something,something)替换为something\u something。那么我应该遵循什么步骤呢?我现在正在执行以下操作-标记化\u clean>;remove_numbers>;remove_url>;remove_slash>;remove_cross>;remove_humpen_underline>;lemmatize_sentence>;将_words_u u been_3(len小于3的单词)>;remove_simlutaneous(同时出现多次的单词,例如death)死亡)>;删除位置>;删除子弹>;移除停止>;移除同步
我应该在这些步骤中做些不同的事情吗?在
- 我也有一些词,比如(group'shealthplan becauseeetheone of followingQualifyingEventShapePens),(whenyouuseanon_networkprovider),(per\xad),(vlfldq\x10vxshuylvhg)
我该怎么处理?完全忽略它们还是尝试改进它们?在
我的最终目标是将文档分为Yes和No类。欢迎提出任何建议。在
如有需要,将提供更多的例子和解释。在
Tags:
正则表达式必须允许
__abc__
吗?否则,(\b_[a-zA-Z]+\s)|(\s[a-zA-Z]+_\b)|(\s_[a-zA-Z]+_\b)
你解决了什么问题?你准备分类文本吗。?
你必须区分错误和符号序列。有一些科学的方法可以做到这一点,例如与语料库词的比较、带注释的后缀树等。
相关问题 更多 >
编程相关推荐