使用nltk解析维基百科停用词HTML

0 投票

1 回答

809 浏览

提问于 2025-04-17 13:44

关于这个问题，我正在开发一个程序，用来提取维基百科条目的介绍部分。正如你在上面的链接中看到的，我已经成功地查询了API，现在我专注于处理API返回的XML数据。我使用nltk来处理这些XML数据，在这里我使用了

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

但是这样做后，我得到了一些像</、/p、<这样的词。因为我并没有使用XML的结构，所以我想，简单地忽略所有的XML内容可能会更好。我想知道，nltk有没有什么工具或者是否有停用词列表可用。我只是想了解一下，最佳的做法是什么？

数据提取维基百科自然语言处理 xml解析 nltk 文本分析停用词 api查询

1 个回答

你没有说明你具体使用了什么查询，但看起来你现在得到的是HTML，而不是XML，这些内容是从XML的响应中提取出来的。

如果你想从HTML代码中去掉所有的标签，只留下文本，你可以使用一个叫做HTML库的工具，比如BeautifulSoup。

回答于 2025-04-17 由 Python大师

分享举报