我正在研究联邦选举委员会(Federal Elections Commission)关于美国众议院2018年中期选举支出的数据集。因为它包含了所有候选人(包括初选失利的候选人),而我只对大选民主党候选人感兴趣,所以我正试图将数据集缩小到提名民主党人。我假设这些人将是每个地区支出最高的民主党人
我创建了一个新的列state_dist
,它是state
和district
的组合,后者变成int,然后是str。然后按州和地区将其排序为:
我还有一个叠加版本,按州和地区叠加:
我尝试从Bharath's answer here借用代码。它创建了以下内容:
问题是max_in_district
似乎返回了正确的值,但我还需要候选名称和其他变量,以便将其附加到我的主项目数据帧。我尝试在max_in_district_2
中添加name
,但这并没有返回我要查找的结果
为了清楚起见,我希望每个"state_dist"
值中的整行在"disbursements"
列中具有最高值。我该怎么得到这个
先谢谢你
你可以做:
这将创建
out.csv
:找到
idxmax
,然后将数据合并回原始帧:相关问题 更多 >
编程相关推荐