TensorFlow Federated：如何调整联邦数据集中的非IID性？

1条回答

网友

1楼 · 发布于 2024-05-16 02:29:11

对于联合学习模拟，在实验驱动程序中用Python设置客户机数据集以实现所需的分布是非常合理的。在某些高层，TFF处理建模数据位置（“类型系统中的放置”）和计算逻辑。重新混合/生成模拟数据集并不是该库的核心，尽管您已经发现了一些有用的库。在python中直接通过操作tf.data.Dataset然后将客户机数据集“推”到TFF计算中来实现这一点似乎很简单

非IID标签

是的，^{}就是为了这个目的

它采用tf.data.Dataset并基本上过滤掉所有与label_key的desired_label值不匹配的示例（假设数据集生成类似dict的结构）

对于EMNIST而言，要创建一个包含所有数据集的数据集（无论用户为何），可以通过以下方式实现：

train_data, _ = tff.simulation.datasets.emnist.load_data()
ones = tff.simulation.datasets.build_single_label_dataset(
  train_data.create_tf_dataset_from_all_clients(),
  label_key='label', desired_label=1)
print(ones.element_spec)
>>> OrderedDict([('label', TensorSpec(shape=(), dtype=tf.int32, name=None)), ('pixels', TensorSpec(shape=(28, 28), dtype=tf.float32, name=None))])
print(next(iter(ones))['label'])
>>> tf.Tensor(1, shape=(), dtype=int32)

数据不平衡

使用^{}和^{}的组合可用于创建数据不平衡

train_data, _ = tff.simulation.datasets.emnist.load_data()
datasets = [train_data.create_tf_dataset_for_client(id) for id in train_data.client_ids[:2]]
print([tf.data.experimental.cardinality(ds).numpy() for ds in datasets])
>>> [93, 109]
datasets[0] = datasets[0].repeat(5)
datasets[1] = datasets[1].take(5)
print([tf.data.experimental.cardinality(ds).numpy() for ds in datasets])
>>> [465, 5]

非IID标签

数据不平衡

相关问题更多 >

编程相关推荐

热门问题

热门文章

TensorFlow Federated：如何调整联邦数据集中的非IID性？

非IID标签

数据不平衡

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >