从地址提取邮政编码

2024-06-02 04:27:09 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个带有地址列的住房数据集。我想把邮政编码和价格之间的关系形象化。但是，地址的格式为(Norfolk Road, Edgbaston, Birmingham B15)。如何单独提取邮政编码

我试过使用

select substring_index(Address, ',', -1)

但它给了我一个错误：

File "<ipython-input-29-2b936e3b990e>", line 1
    select substring_index(Address, ',', -1)
                         ^
SyntaxError: invalid syntax

在本例中，如何仅提取邮政编码B15

既然数据是一个分类变量，而不是连续的，那么最好的可视化方法是什么。我想我应该对邮政编码进行分组，但是我要创建一个虚拟的吗

Tags：数据 index 关系 address 地址格式价格 substring

1条回答

网友

1楼 · 发布于 2024-06-02 04:27:09

如果数据位于数据框中，则可以使用函数extract（），如下所示：

df["PostCode"] = df["Address"].str.extract(r"([A-Z]\d+)")

函数extract()使用regexp提取第一次出现的大写字母，后跟表示所需邮政编码的一个或多个数字

希望能有帮助