如何找到两个pyarrow数据集架构的不同之处？

import pandas as pd import numpy as np import pyarrow as pa df1 = pd.DataFrame({'col1': np.zeros(10), 'col2':np.random.rand(10)}) df2 = pd.DataFrame({'col1':np.ones(10), 'col2': np.zeros(10)}) schema_1 = pa.Schema.from_pandas(df1) schema_2 = pa.Schema.from_pandas(df2) schema_1.equals(schema_2) df3 = df2.copy() df3['col2'] = df3['col2'].astype('int') schema_3 = pa.Schema.from_pandas(df3) print(schema_1.equals(schema_2), schema_1.equals(schema_3))

1条回答

网友

1楼 · 发布于 2024-04-25 18:59:41

每个架构基本上是一组有序的pyarrow.field类型。因此，pyarrow.schema可以具有名称、类型以及字段类型的某些其他属性不同的字段。此外，顺序可能也很重要

要查找模式_3中不在模式_1中的字段，请使用集合

set(schema_3).difference(set(schema_1))

要仅查找不同字段的名称，请使用.names属性

set(schema_3.names).difference(set(schema_1.names))

编程相关推荐

java实现的一个简单算法（计算概率）
更改应用程序背景动画的java首选项
java捕获图像并通过socket发送
基于双精度数组的对象的java排序Arraylist？
java似乎无法获得前面数字的正确总和
java卡住了Tomcat线程。日食乐观锁定
java是一个异步的Throwable类的printStackTrace（）
java随机错误（可能是）Android支持库
java我应该在代码中自动创建DB表，还是在安装过程中使用preinit？
在被调用的方法/函数Java/Android中处理异常？

相关问题更多 >

编程相关推荐

热门问题

热门文章