从列中的文本中提取国家名称以创建另一列

Address 0 Turin, Italy 1 NaN 2 Zurich, Switzerland 3 NaN 4 Glyfada, Greece 5 Frosinone, Italy 6 Dublin, Ireland 7 NaN 8 Turin, Italy 1 NaN 2 Zurich, Switzerland 3 NaN 4 Glyfada, Greece 5 Frosinone, Italy 6 Dublin, Ireland 7 NaN 8 ... 9 Kristiansand, Norway Name: address, Length: 10, dtype: object

import pycountry Cntr = [] for country in pycountry.countries: if country.name in df['address'][1]: Cntr.append(country.name) Cntr Returns [Italy] and df.address[2] returns [ ] etc.

3条回答

网友

1楼 · 编辑于 2024-06-09 22:59:52

你真的很接近。我们不能像这样循环for country.name in df.address。相反：

import pycountry
Cntr = []
for country in pycountry.countries:
    if country.name in df.address:
        Cntr.append(country.name)

如果这不起作用，请提供更多信息，因为我不确定df.address是什么样子

网友

2楼 · 编辑于 2024-06-09 22:59:52

示例数据帧 df = pd.DataFrame({'address': ['Turin, Italy', np.nan, 'Zurich, Switzerland', np.nan, 'Glyfada, greece']})

df[['city', 'country']] = df['address'].str.split(',', expand=True, n=2)

               address     city       country
0         Turin, Italy    Turin         Italy
1                  NaN      NaN           NaN
2  Zurich, Switzerland   Zurich   Switzerland
3                  NaN      NaN           NaN
4      Glyfada, greece  Glyfada        greece

网友

3楼 · 编辑于 2024-06-09 22:59:52

您可以使用库DataPrep中的函数^{}。用pip install dataprep安装它

from dataprep.clean import clean_country
df = pd.DataFrame({"address": ["Turin, Italy", np.nan, "Zurich, Switzerland", np.nan, "Glyfada, Greece"]})
df2 = clean_country(df, "address")
df2
               address address_clean
0         Turin, Italy         Italy
1                  NaN           NaN
2  Zurich, Switzerland   Switzerland
3                  NaN           NaN
4      Glyfada, Greece        Greece

相关问题更多 >

编程相关推荐

热门问题

热门文章