从废弃的Web创建数据帧的最有效方法

2024-04-26 17:33:38 发布

您现在位置：Python中文网/ 问答频道 /正文

6895

网友

男 | 程序猿一只，喜欢编程写python代码。

我已经通过Python漂亮的Soup库删除了一些数据。关于如何将这些数据转换成熊猫数据帧，有很多种选择，我很好奇什么是最有效的

最后，我为每个条目创建了一个字典，并将每个条目添加到一个列表中。这是我的密码：

value_list = []

# iterate through all files
for filename in os.listdir(directory):
    if filename.endswith(".html"): 
        file = open(directory + "//" + filename)
        soup = bs4.BeautifulSoup(file)
        rank = soup.findAll('div', attrs={'class':'rank'})
        value1 = soup.findAll('a', attrs={"class": "things"})
        value2 = soup.findAll('span', attrs={'class':'blah'})
        value3 = soup.findAll('span', attrs={'class':'stuff'})

        for i in range(len(rank)):
            vaule_dict = {'Rank': int(rank[i].text.strip()), 
                           'V1': value1[i].text.strip(), 
                           'V2': value2[i].text.strip(), 
                           'V3': value3[i].text.strip()}

            value_list.append(value_dict)

df = pd.DataFrame(value_list)

有没有更有效的方法来做到这一点，或者这种方法很合理

Tags：数据 text in for value 条目 filename directory

0条回答

目前没有回答

从废弃的Web创建数据帧的最有效方法

相关问题更多 >

编程相关推荐

热门问题

热门文章

从废弃的Web创建数据帧的最有效方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >