是否在关联的字符串值处向新数据帧添加列？

3条回答

网友

1楼 · 编辑于 2024-06-17 12:17:32

好吧，我设法弄明白了，但是如果你不是在完全相同的情况下使用相同的数据，解决方案可能不会有太大帮助。Bernardo Alencar的回答是基本正确的，只是在合并时我无法对字符串应用操作（我仍然不确定是否有方法可以做到这一点）。我发现另一个数据集的街道名称格式与第一个相似。然后，我将第一个数据帧与第三个新数据帧合并。在这之后，第一个和第二个都有["STREET_ID"]列。最后我用

temp = combined["STREET_ID"]
CrimesToMapDF = street_maps.merge(temp, left_on='STREET_ID', right_on='STREET_ID')

从而得到所需的最终数据帧和相关的街道ID

网友

2楼 · 编辑于 2024-06-17 12:17:32

为此，需要合并这些数据帧。一种方法是：

df.merge(street_map2, left_on='STREET', right_on='ST_NAME')

这将做的是：它将在ST_NAME和STREET列中查找相等的值，并用来自这两个数据帧的其他列的值填充行。你知道吗

有关详细信息，请查看此链接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

此外，您尝试合并的列上的字符串必须完全匹配（包括大小写）。你知道吗

网友

3楼 · 编辑于 2024-06-17 12:17:32

您可以使用map函数执行以下操作：

df["STREET_ID"] = df["STREET"].map(get_street_id)

其中get_street_id定义为一个函数，给定df["STREET"]中的值。将返回一个要插入新列的值：

（免责声明；目前未经测试）

def get_street_id(street_name):
    return street_map2[street_map2["ST_NAME"] == street_name].iloc[0].ST_NAME

我们得到一个street_map2的数据帧，它通过st name列与street name相同的位置进行过滤：

street_map2[street_map2["ST_NAME"] == street_name]

然后我们用iloc[0]取其中的第一个元素，并返回ST_NAME值。你知道吗

然后，我们可以通过更新索引操作来添加您在问题中提到的容错性：

...
street_map2[street_map2["ST_NAME"].str.contains(street_name)]
...

或者

...
street_map2[street_map2["ST_NAME"].str.startswith(street_name)]
...

或者，更灵活地说：

...
street_map2[
    street_map2["ST_NAME"].str.lower().replace("street", "st").startswith(street_name.lower().replace("street", "st"))
]
...

…它将两个值都小写，例如，将“street”转换为“st”（因此映射更可能重叠），然后检查是否相等。你知道吗

如果这仍然不适合您，您可能需要在街道名称之间建立一个更精确的映射数据集！很可能街道名称太不相同，很难与字符串比较匹配。你知道吗

（如果你能提供一些街道名称的例子以及它们应该重叠的地方，我们也许能帮助你更好地发展“模糊”匹配！）

相关问题更多 >

编程相关推荐

热门问题

热门文章