调查数据集中相似问题但不同的响应设置

-4 投票

0 回答

16 浏览

数据工程师

提问于 2025-04-12 02:56

我需要一些关于准备和清理数据的建议。我有两个调查数据集（2020年和2021年）。

2021年的调查增加了一些问题，并且有些措辞也有所变化，但两个年份的问题大部分是相似的。不过，我需要手动查看这些数据集，找出哪些列表示的是相同的信息。为了跟踪这两个年份之间相似的列，我使用了一个参考键来记录这些相似的列。

在这个过程中，我发现有几个问题在本质上非常相似，但它们的回答方式却完全不同。我能否将这些问题的回答方式调整得更相似，以便在合并数据集时不会出错？如果可以，我应该怎么做？我附上了两个调查问题的截图，类似的问题用绿色标出。

在这个过程中，我发现有几个问题在本质上非常相似，但它们的回答方式却完全不同。我能否将这些问题的回答方式调整得更相似，以便能够将其包含在合并的数据集中，而不会出错？如果可以，我应该怎么做？

我附上了两个调查问题的截图，类似的问题用绿色标出。

使用余弦相似度来衡量两个句子之间的相似性，这样做可行吗？

另外，使用Python还是SQL来做这个更简单呢？

[2020 Question and Response 1](https://i.stack.imgur.com/Wz1Re.png)
[2020 Question and Response 2](https://i.stack.imgur.com/tNESF.png)
[2021 Question and Response 1](https://i.stack.imgur.com/B3voa.png)
[2021 Question and Response 2](https://i.stack.imgur.com/2GHne.png)

数据清理数据合并数据比较余弦相似度调查数据集列相似性数据准备响应格式

0 个回答

暂无回答

调查数据集中相似问题但不同的响应设置

0 个回答

撰写回答