我已经通过Python漂亮的Soup库删除了一些数据。关于如何将这些数据转换成熊猫数据帧,有很多种选择,我很好奇什么是最有效的
最后,我为每个条目创建了一个字典,并将每个条目添加到一个列表中。这是我的密码:
value_list = []
# iterate through all files
for filename in os.listdir(directory):
if filename.endswith(".html"):
file = open(directory + "//" + filename)
soup = bs4.BeautifulSoup(file)
rank = soup.findAll('div', attrs={'class':'rank'})
value1 = soup.findAll('a', attrs={"class": "things"})
value2 = soup.findAll('span', attrs={'class':'blah'})
value3 = soup.findAll('span', attrs={'class':'stuff'})
for i in range(len(rank)):
vaule_dict = {'Rank': int(rank[i].text.strip()),
'V1': value1[i].text.strip(),
'V2': value2[i].text.strip(),
'V3': value3[i].text.strip()}
value_list.append(value_dict)
df = pd.DataFrame(value_list)
有没有更有效的方法来做到这一点,或者这种方法很合理
目前没有回答
相关问题 更多 >
编程相关推荐