新闻网站提取的文本数据应存储在哪种数据类型中以便于NLP？

-1 投票

1 回答

30 浏览

提问于 2025-04-12 23:39

我用 beautifulsoup 提取了以下文本数据：

for data in soup2.find_all(class_="td-post-content"):
         data.get_text()

我应该把提取的数据存储成什么类型呢？

我把提取的数据存放在了一个列表里，但无法进行文本分析，因为里面没有任何标题之类的东西。

数据结构自然语言处理文本分析文本数据存储

1 个回答

这个问题还有点不清楚，确实可以改进一下。

你可以把抓取到的内容（str）保存到一个包含多个字典的列表（list of dicts）里，然后在这个列表上进行自然语言处理（NLP）操作，或者更进一步，提前把它转换成一个数据框（dataframe）。

不过，正如之前提到的，你需要自己选择相关的内容，并把它添加到你的结果中。

基于 cancer.org 的示例

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = f"https://csn.cancer.org/categories/prostate"
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

data = []
for e in soup.select('ul.linkList li'):
    data.append({
        'url':e.a.get('href'),
        'title':e.a.text,
        'content':e.p.text
    })

pd.DataFrame(data)

回答于 2025-04-12 由 Python大师

分享举报

新闻网站提取的文本数据应存储在哪种数据类型中以便于NLP？

1 个回答

基于 cancer.org 的示例

撰写回答