迭代或延迟储层取样

2条回答

网友

1楼 · 编辑于 2024-04-18 12:51:27

如果事先知道种群大小，你不能生成样本大小的随机“指数”（在流中）并用它来做一个懒惰的产量吗？你不必阅读整个流。在

例如，如果population_size为100，sample_size为3，则生成一个从1到100的随机整数集，比如得到10、67和72。在

现在您将得到流的第10、62和72个元素，而忽略其余元素。在

我想我不明白这个问题。在

网友

2楼 · 编辑于 2024-04-18 12:51:27

如果您事先知道iterable population将产生的项目总数，那么当您找到一个{}的样本时，就有可能产生这些项目（不仅仅是在到达末尾之后）。如果你事先不知道总体规模，这是不可能的（因为样本中任何项目的概率都无法计算）。在

下面是一个快速生成器，它可以做到：

def sample_given_size(population, population_size, sample_size):
    for item in population:
        if random.random() < sample_size / population_size:
            yield item
            sample_size -= 1
        population_size -= 1

请注意，生成器按项目在总体中出现的顺序生成项目（不是按随机顺序，如random.sample或大多数储层采样代码），因此样本的一部分将不是随机子样本！在

相关问题更多 >

编程相关推荐

热门问题

热门文章

迭代或延迟储层取样

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >