我有一个带有地址列的住房数据集。我想把邮政编码和价格之间的关系形象化。但是,地址的格式为(Norfolk Road, Edgbaston, Birmingham B15)
。如何单独提取邮政编码
我试过使用
select substring_index(Address, ',', -1)
但它给了我一个错误:
File "<ipython-input-29-2b936e3b990e>", line 1
select substring_index(Address, ',', -1)
^
SyntaxError: invalid syntax
在本例中,如何仅提取邮政编码B15
既然数据是一个分类变量,而不是连续的,那么最好的可视化方法是什么。我想我应该对邮政编码进行分组,但是我要创建一个虚拟的吗
如果数据位于数据框中,则可以使用函数extract(),如下所示:
df["PostCode"] = df["Address"].str.extract(r"([A-Z]\d+)")
函数
extract()
使用regexp提取第一次出现的大写字母,后跟表示所需邮政编码的一个或多个数字希望能有帮助
相关问题 更多 >
编程相关推荐