使用Python Faker packag的不同伪数据的最大限制

1条回答

网友

1楼 · 发布于 2024-05-15 02:15:16

我也遇到过同样的问题，并对此进行了更深入的研究。在

在en_US提供者中，大约有1000个姓氏和750个名字，对应大约750000个独特的组合。如果你随机选择一个名字和姓氏，你有可能得到重复的名字。但实际上，现实世界就是这样的，有很多约翰·史密斯和罗伯特·多伊尔斯。在

在en配置文件中有7203个名字和473个姓氏，这可能会有所帮助。Faker选择名字和姓氏的组合，意思是大约有7203*473=3407019。在

不过，你还是有机会得到复制品的。在

我通过给名字加数字来解决这个问题。在

I need to generate huge dataset.

请记住，在现实中，任何庞大的名称数据集都会有重复项。我使用大型数据集（超过100万个姓名），我们看到大量重复的名字和姓氏。在

如果你读了这个伪造的软件包代码，你可能会想办法修改它，这样你就可以得到所有3M不同的名字。在