使用Python Faker包的不同伪造数据的最大限制

2023年1月27日 312次阅读

我使用
Python Faker生成虚假数据.但我需要知道使用faker(例如：fake.name())可以生成不同伪造数据的最大数量(例如：伪名称).

我已经生成了10万个假名,而且我的名字不到76,000个.我需要知道最大限制,以便我可以知道使用此包生成数据我们可以扩展多少.

我需要生成庞大的数据集.我也想知道是Php faker,perl faker对于不同的环境都是一样的吗？

其他用于生成大型数据集的软件包将受到高度赞赏.

最佳答案我有同样的问题并且更多地考虑它.

在en_US提供者中,大约有1000个姓氏和750个名字,用于大约750000个独特组合.如果您随机选择名字和姓氏,您可能会获得重复名称.但实际上,这就是现实世界的运作方式,那里有很多John Smiths和Robert Doyles.

en配置文件中有7203个名字和473个姓氏,可以提供帮助. Faker选择名字和姓氏的组合意味着有大约7203 * 473 = 3407019.

但是,你仍有可能获得重复.

我通过在名称中添加数字来解决这个问题.

I need to generate huge dataset.

请记住,实际上,任何大型名称数据集都会有重复数据.我使用大型数据集(> 100万个名字),我们看到了大量重复的名字和姓氏.

如果您阅读了faker软件包代码,您可能会想出如何修改它,以便获得所有3M不同的名称.