调查数据集中相似问题但不同的响应设置

-4 投票
0 回答
16 浏览
提问于 2025-04-12 02:56

我需要一些关于准备和清理数据的建议。我有两个调查数据集(2020年和2021年)。

2021年的调查增加了一些问题,并且有些措辞也有所变化,但两个年份的问题大部分是相似的。不过,我需要手动查看这些数据集,找出哪些列表示的是相同的信息。为了跟踪这两个年份之间相似的列,我使用了一个参考键来记录这些相似的列。

在这个过程中,我发现有几个问题在本质上非常相似,但它们的回答方式却完全不同。我能否将这些问题的回答方式调整得更相似,以便在合并数据集时不会出错?如果可以,我应该怎么做?我附上了两个调查问题的截图,类似的问题用绿色标出。

在这个过程中,我发现有几个问题在本质上非常相似,但它们的回答方式却完全不同。我能否将这些问题的回答方式调整得更相似,以便能够将其包含在合并的数据集中,而不会出错?如果可以,我应该怎么做?

我附上了两个调查问题的截图,类似的问题用绿色标出。

使用余弦相似度来衡量两个句子之间的相似性,这样做可行吗?

另外,使用Python还是SQL来做这个更简单呢?

[2020 Question and Response 1](https://i.stack.imgur.com/Wz1Re.png)
[2020 Question and Response 2](https://i.stack.imgur.com/tNESF.png)
[2021 Question and Response 1](https://i.stack.imgur.com/B3voa.png)
[2021 Question and Response 2](https://i.stack.imgur.com/2GHne.png)

0 个回答

暂无回答

撰写回答