我希望清理一个有61k行的数据集。我需要清理它的街道地址栏。目前,地址是一个噩梦。有时会写出完整的地址(即弗雷德里克·道格拉斯大街111号),有时会用速记法写出相同的地址(即第8大街111号/第8大街111号)。你知道吗
我是一个新的pandas/python用户,所以我不知道如何处理如此大规模的清洁需求。但这似乎是完全错误的方法。非常感谢你的任何见解。你知道吗
编辑:基本上我是在寻找标准化的地址。地址输入错误或采用多种不同格式。长期目标是映射所有这些地址,但以数据的当前形式这是不可能的
数据集:https://data.cityofnewyork.us/City-Government/Evictions/6z8x-wfk4
我使用这个函数来标准化地址(并将街道类型放在缩写形式中,与Google的格式保持一致)。对代码转储的歉意,但正则表达式充满了有趣的事情要考虑。你知道吗
我还添加了一些数字,用于按顺序调用通道:
我工作的公司制造了一个地址更正和标准化工具YAddress。您可以使用API一次标准化一个地址,也可以在一个文件中一次处理整个数据集。你知道吗
相关问题 更多 >
编程相关推荐