我有一个dataframe,在其中的一列中,我有一个散列值列表,存储为字符串:
'[d85235f50b3c019ad7c6291e3ca58093,03e0fb034f2cb3264234b9eae09b4287]' just to be clear.
数据帧看起来像
1
0 [8a88e629c368001c18619c7cd66d3e96, 4b0709dd990a0904bbe6afec636c4213, c00a98ceb6fc7006d572486787e551cc, 0e72ae6851c40799ec14a41496d64406, 76475992f4207ee2b209a4867b42c372]
1 [3277ded8d1f105c84ad5e093f6e7795d]
2 [d85235f50b3c019ad7c6291e3ca58093, 03e0fb034f2cb3264234b9eae09b4287]
我想创建此列中存在的唯一哈希id的列表。你知道吗
有效的方法是什么? 谢谢
IIUC,你想把数据展平。使用
yaml.load
将其转换为列表列。你知道吗最简单的方法是从旧数据帧的值构造一个新的数据帧。你知道吗
选项1
请参阅下面的计时以获得最快的选项
你可以把解析和展平嵌入到一个理解中
在那里,您可以使用
list(set())
、pd.unique
或np.unique
选项2
为简洁起见,请使用
pd.Series.extractall
@jezrael的
list(set())
以我的理解是最快的分析计时
为了比较解析和扁平化,我保留了相同的
list(set())
。你知道吗这需要我的理解,并使用各种方法,使独特的比较这些速度
首先需要^{} 和^{} ,对于平坦化
chain
:相关问题 更多 >
编程相关推荐