使用nltk解析维基百科停用词HTML
关于这个问题,我正在开发一个程序,用来提取维基百科条目的介绍部分。正如你在上面的链接中看到的,我已经成功地查询了API,现在我专注于处理API返回的XML数据。我使用nltk来处理这些XML数据,在这里我使用了
wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
wikiword = lemmatizer.lemmatize(wikiword.lower())
...
但是这样做后,我得到了一些像</
、/p
、<
这样的词。因为我并没有使用XML的结构,所以我想,简单地忽略所有的XML内容可能会更好。我想知道,nltk有没有什么工具或者是否有停用词列表可用。我只是想了解一下,最佳的做法是什么?
1 个回答
2
你没有说明你具体使用了什么查询,但看起来你现在得到的是HTML,而不是XML,这些内容是从XML的响应中提取出来的。
如果你想从HTML代码中去掉所有的标签,只留下文本,你可以使用一个叫做HTML库的工具,比如BeautifulSoup。