Pandas:为Pandas的宝宝名字和国名添加新的列total\u count?

2024-06-11 09:17:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我在笔记本里导入了两个数据集。一个由每年每个州给婴儿的名字组成的名字(和数字,[计数])。另一个由在美国使用这个名字和那个特定名字的总人数组成。(参见添加的图像)。你知道吗

这里的问题是,我附加了两个数据集,因此它们成为一个数据集,因为合并和concat不起作用。你知道吗

我想在所有列旁边创建一个“Totalcount”列,其中还提到了州(而不是NAN),这样我就可以将babynames与每个州的特定名称的国家计数进行比较。你知道吗

例如:1934年,德克萨斯州有4个婴儿被命名为“安娜”。1934年,美国被称为“安娜”的人数为14000人。“totalcount”的数目应该是14000。这个数字应该是14000,仅次于其他州。 所以:在加州有5个婴儿被命名为“安娜”,总数仍将是14000。我试过很多东西,但都想不出来。你知道吗

The dataset, above: the national count of names in each year, but without the States. Under: The count of certain babynames which are given in each state, I appended these two datasets since merging or concat didn't work.

示例状态数据集:

df = pd.DataFrame([['AF',1910.0, 'F', 'Mary', 14.0], ['TX',1910.0, 'M' , 'Lex', 15.0], ['CA',1920.0,'M','Tom', 14.0]], columns=['State', 'Sex','Year','Name','Count'])

国家数据集示例:

df2 = pd.DataFrame([['Anna','F', 2402,1910], ['Ben','M',5044,1912], ['Simon','M',39203,1910]], columns=['Name', 'Sex','Count','Year'])
df2

Tags: ofthe数据incount数字国家名字