2024-05-15 02:15:16 发布
网友
我曾使用Python Faker生成假数据。但是我需要知道使用faker可以生成的不同伪数据(例如:假名字)的最大数量是多少(例如:假名字() ). 在
我产生了100000个假名字,而我得到的不同名字不到76000个。我需要知道最大限制,这样我就可以知道使用这个包生成数据可以扩展多少。在
我需要生成巨大的数据集。我还想知道是不是Php的faker,perl的faker对于不同的环境都是一样的?在
其他用于生成大型数据集的软件包将受到高度重视。在
我也遇到过同样的问题,并对此进行了更深入的研究。在
在en_US提供者中,大约有1000个姓氏和750个名字,对应大约750000个独特的组合。如果你随机选择一个名字和姓氏,你有可能得到重复的名字。但实际上,现实世界就是这样的,有很多约翰·史密斯和罗伯特·多伊尔斯。在
en_US
在en配置文件中有7203个名字和473个姓氏,这可能会有所帮助。Faker选择名字和姓氏的组合,意思是大约有7203*473=3407019。在
en
不过,你还是有机会得到复制品的。在
我通过给名字加数字来解决这个问题。在
I need to generate huge dataset.
请记住,在现实中,任何庞大的名称数据集都会有重复项。我使用大型数据集(超过100万个姓名),我们看到大量重复的名字和姓氏。在
如果你读了这个伪造的软件包代码,你可能会想办法修改它,这样你就可以得到所有3M不同的名字。在
我也遇到过同样的问题,并对此进行了更深入的研究。在
在
en_US
提供者中,大约有1000个姓氏和750个名字,对应大约750000个独特的组合。如果你随机选择一个名字和姓氏,你有可能得到重复的名字。但实际上,现实世界就是这样的,有很多约翰·史密斯和罗伯特·多伊尔斯。在在
en
配置文件中有7203个名字和473个姓氏,这可能会有所帮助。Faker选择名字和姓氏的组合,意思是大约有7203*473=3407019。在不过,你还是有机会得到复制品的。在
我通过给名字加数字来解决这个问题。在
请记住,在现实中,任何庞大的名称数据集都会有重复项。我使用大型数据集(超过100万个姓名),我们看到大量重复的名字和姓氏。在
如果你读了这个伪造的软件包代码,你可能会想办法修改它,这样你就可以得到所有3M不同的名字。在
相关问题 更多 >
编程相关推荐