我有从usaddress python库获得的解析地址的数据:https://github.com/datamade/usaddress
数据是元组列表的列表。每个地址都有一个与之相关联的列表:
[('Robie', 'BuildingName'),
('House,', 'BuildingName'),
('5757', 'AddressNumber'),
('South', 'StreetNamePreDirectional'),
('Woodlawn', 'StreetName'),
('Avenue,', 'StreetNamePostType'),
('Chicago,', 'PlaceName'),
('IL', 'StateName'),
('60637', 'ZipCode')]
但是,对于某些地址,某个字段可能存在,也可能不存在。我想将这些数据导出到一个包含所有列标题(BuildingName,Address…等等)的pandas数据框中,如果该列标题不在列表中,则单元格将留空。在
我现在拥有的是:
^{pr2}$但这会生成一个没有列标题的文件,也没有真正的逐列组织,因为缺少的值只会转移所有内容。在
非常感谢帮助。在
假设如下:
usaddress.tag
usaddress.tag
引发的错误usaddress.tag
返回的第一部分然后,您可以执行以下操作
^{pr2}$**
表示函数这一部分的替代解决方案。因为我们完全知道.tag
函数可以返回的所有列,所以您只需将这些列设置为这样(请参见所有标记here和API here):我希望这有帮助!要知道,当您使用字典
pd.DataFrame
并指定精确的列时,它将自动用pd.NaN
填充不存在的键。在相关问题 更多 >
编程相关推荐