新闻网站提取的文本数据应存储在哪种数据类型中以便于NLP?
我用 beautifulsoup
提取了以下文本数据:
for data in soup2.find_all(class_="td-post-content"):
data.get_text()
我应该把提取的数据存储成什么类型呢?
我把提取的数据存放在了一个列表里,但无法进行文本分析,因为里面没有任何标题之类的东西。
1 个回答
0
这个问题还有点不清楚,确实可以改进一下。
你可以把抓取到的内容(str
)保存到一个包含多个字典的列表(list
of dicts
)里,然后在这个列表上进行自然语言处理(NLP)操作,或者更进一步,提前把它转换成一个数据框(dataframe
)。
不过,正如之前提到的,你需要自己选择相关的内容,并把它添加到你的结果中。
基于 cancer.org 的示例
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = f"https://csn.cancer.org/categories/prostate"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = []
for e in soup.select('ul.linkList li'):
data.append({
'url':e.a.get('href'),
'title':e.a.text,
'content':e.p.text
})
pd.DataFrame(data)