新闻网站提取的文本数据应存储在哪种数据类型中以便于NLP?

-1 投票
1 回答
30 浏览
提问于 2025-04-12 23:39

我用 beautifulsoup 提取了以下文本数据:

for data in soup2.find_all(class_="td-post-content"):
         data.get_text()

我应该把提取的数据存储成什么类型呢?

我把提取的数据存放在了一个列表里,但无法进行文本分析,因为里面没有任何标题之类的东西。

1 个回答

0

这个问题还有点不清楚,确实可以改进一下。


你可以把抓取到的内容(str)保存到一个包含多个字典的列表(list of dicts)里,然后在这个列表上进行自然语言处理(NLP)操作,或者更进一步,提前把它转换成一个数据框(dataframe)。

不过,正如之前提到的,你需要自己选择相关的内容,并把它添加到你的结果中。

基于 cancer.org 的示例
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = f"https://csn.cancer.org/categories/prostate"
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

data = []
for e in soup.select('ul.linkList li'):
    data.append({
        'url':e.a.get('href'),
        'title':e.a.text,
        'content':e.p.text
    })

pd.DataFrame(data)

撰写回答