如何用Python高效地基于交易数据创建用户图？

Question

我正在尝试使用Python的networkx库来创建用户之间的关系图。我的原始数据是单个支付交易，其中包含用户、支付工具、IP地址等信息。我的节点是用户，如果两个用户共享同一个IP地址，我就会创建连接。

从这些交易数据中，我创建了一个Pandas数据框，里面存储了唯一的[用户, IP]对。为了创建连接，我需要找到[user_a, user_b]这样的对，前提是这两个用户共享一个IP。我们把这个数据框叫做'df'，它有'用户'和'IP'这两列。

我一直遇到内存问题，尝试了几种不同的解决方案。作为参考，原始交易列表大约有50万条，包含大约13万用户，3万IP，可能还有3000万条连接。

将df与自身连接，排序对并去重（这样[X, Y]和[Y, X]就不会都显示为唯一对）。

df_pairs = df.join(df, how='inner', lsuffix='l', rsuffix='r')
df_sorted_pairs = [np.sort([df_pairs['userl'][i], df_pairs['userr'][i]]) for i in range(len(df_pairs))]
edges = np.asarray(pd.DataFrame(df_sorted_pairs).drop_duplicates())

这个方法效果不错，但很快就出现了内存错误，因为将一个表与自身连接会迅速增加数据量。

创建一个矩阵，用户作为行，IP作为列，矩阵中的元素如果该用户在这个IP上有交易就标记为1，否则为0。然后用X.dot(X.transpose())得到一个方阵，元素(i,j)表示用户i和用户j共享了多少个IP。
```
user_list = df['user'].unique()
ip_list = df['ip'].unique()
df_x = pd.DataFrame(index=user_list, columns=ip_list)
df_x.fillna(0, inplace=True)
for row in range(len(df)):
    df_x[df['ip'][row]][df['user'][row]] = 1
df_links = df_x.dot(df_x.transpose())
```
这个方法非常有效，除非len(ip_list)大于5000。仅仅创建一个50万行x20万列的空数据框就会出现内存错误。
暴力破解。逐个遍历用户。对于每个用户，找到不同的IP。对于每个IP，找到不同的用户。这样得到的用户就与当前遍历的用户有连接。将这个[用户1, 用户2]的列表添加到连接的主列表中。
```
user_list = df['user'].unique()
ip_list = df['ip'].unique()
links=[]
for user in user_list:
    related_ip_list = df[df['user'] == user]['ip'].unique()
    for ip in related_ip_list:
        related_user_list = df[df['ip'] == ip]['user'].unique()
        for related_user in related_user_list:
            if related_user != user:
                links.append([user, related_user])
```
这个方法可行，但非常慢。它运行了3个小时，最后还是出现了内存错误。因为在这个过程中连接一直在保存，所以我可以检查它的大小——大约2300万条连接。

任何建议都非常感谢。我是不是已经深入到“巨量数据”中，传统的方法不再适用了？我原以为50万条交易不算“巨量数据”，但我想存储一个13万x3万的矩阵或创建一个3000万元素的列表确实很大？

数据分析内存优化矩阵运算数据框网络图交易数据用户关系图巨量数据

如何用Python高效地基于交易数据创建用户图？

1 个回答

大教训是：

撰写回答