如何使用NLTK标记包含标点符号的单词

2024-05-23 14:12:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个^{},文字是从网上刮来的招聘广告。我想用NLTK去掉这些技能

但我在第一个障碍上失败了,因为读者将“C”这个词标记为“C”

我确实想过滤掉噪音,比如停止词和标点符号,所以这是个问题

我怎样才能避开这件事


Tags: 标记技能障碍文字标点符号nltk噪音读者
1条回答
网友
1楼 · 发布于 2024-05-23 14:12:58

答案是在使用语料库读取器之前清理字符串,使用replace方法将“C#”替换为类似“CSharp”的内容,或者训练标记器

相关问题 更多 >