使用Python Faker packag的不同伪数据的最大限制

2024-05-15 02:15:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我曾使用Python Faker生成假数据。但是我需要知道使用faker可以生成的不同伪数据(例如:假名字)的最大数量是多少(例如:假名字() ). 在

我产生了100000个假名字,而我得到的不同名字不到76000个。我需要知道最大限制,这样我就可以知道使用这个包生成数据可以扩展多少。在

我需要生成巨大的数据集。我还想知道是不是Php的faker,perl的faker对于不同的环境都是一样的?在

其他用于生成大型数据集的软件包将受到高度重视。在


Tags: 数据数量环境名字perlphpfaker假名字
1条回答
网友
1楼 · 发布于 2024-05-15 02:15:16

我也遇到过同样的问题,并对此进行了更深入的研究。在

en_US提供者中,大约有1000个姓氏和750个名字,对应大约750000个独特的组合。如果你随机选择一个名字和姓氏,你有可能得到重复的名字。但实际上,现实世界就是这样的,有很多约翰·史密斯和罗伯特·多伊尔斯。在

en配置文件中有7203个名字和473个姓氏,这可能会有所帮助。Faker选择名字和姓氏的组合,意思是大约有7203*473=3407019。在

不过,你还是有机会得到复制品的。在

我通过给名字加数字来解决这个问题。在

I need to generate huge dataset.

请记住,在现实中,任何庞大的名称数据集都会有重复项。我使用大型数据集(超过100万个姓名),我们看到大量重复的名字和姓氏。在

如果你读了这个伪造的软件包代码,你可能会想办法修改它,这样你就可以得到所有3M不同的名字。在

相关问题 更多 >

    热门问题