我只想选择一列中元素的总重复次数少于3次的行。具体来说,我有一个电话号码,姓名和城市的大目录。我想导出一个只包含“小城市”的列表,这样在文档中,任何包含少于三个条目的城市的行都会被保留。比如说
Name, City, State
Foo, L.A., CA
Bar, L.A., CA
Sam, L.A., CA
Tricia, Kent, WA
Bob, Kent, WA
Ida, Boo, PA
Monster Mash, Whack, PA
Zoomacroom, L.A., CA
Otter Pop, Boo, PA
Snake, HP, WA
Ronnie the Bear, Boo, PA
应该变成:
Name, City, State
Tricia, Kent, WA
Bob, Kent, WA
Snake, HP, WA
Monster Mash, Whack, PA
我也不必使用pandas-我可以很容易地使用csv;我只是碰巧已经在我的清理脚本中导入了它。你知道吗
编辑:我思考OP在发布的前5分钟内更改了所需的数据帧。这个答案描述了如何删除所有列中的重复(不仅仅是对于这个城市/州的具体例子,在那里这没有太多意义)。
您可以对单个列执行此操作(删除出现3次以上的城市名称):
在所有列中都要这样做(这有点混乱!但是,您可以为任意帧创建一个函数来执行此操作……:
更优雅一点:
比如说:
大致如下:
希望这有帮助
相关问题 更多 >
编程相关推荐