用Python将Excel文件转换成篮子分析列表

2024-05-23 19:10:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在自学Python,通过各种教程,然后将其重新应用到我自己的自定义数据集。我在重新构造数据以使用我发现的关联规则教程时遇到问题

参考文献: http://aimotion.blogspot.com/2013/01/machine-learning-and-data-mining.html

我的数据结构:

enter image description here

目标结构:“[[1,3,4],[2,3,5],[1,2,3,5],[2,5]]”。。。客户购买的产品清单。我不需要客户的名字。你知道吗

因此,对于每个客户,我需要删除二进制值为0的产品。并按产品名称而不是二进制值1创建他们购买的产品的列表。你知道吗

有人帮忙吗?我的数据集有6.2万个客户,所以手工操作需要很长时间


Tags: 数据comhttp客户产品规则二进制教程
1条回答
网友
1楼 · 发布于 2024-05-23 19:10:37

假设你的数据在第一张纸上:

import openpyxl 

wb = openpyxl.load_workbook('yourfile.xlsx')
ws = wb.worksheets[0]

final_list = []
for i,row in enumerate(ws.iter_rows()):
    if i == 0: continue # skip first row
    sub_list = []
    for cell in row:
        if cell.value == 1:
            sub_list.append(cell.col_idx-1)
    final_list.append(sub_list)

结果:

>>> final_list
[[1, 2, 5], [2, 3, 5], [2, 3, 5], [2]]

相关问题 更多 >