使用科隆拼音算法自动化数据转换

2024-06-16 11:15:48 发布

您现在位置:Python中文网/ 问答频道 /正文

现有流程:团队在Excel电子表格中获取数据,然后电子表格数据通过OpenRefine(之前称为GoogleRefine)传递,并根据下面的屏幕截图进行键碰撞,基本上将具有类似名称的数据更正为一个

在此示例电子表格数据中,两行分别具有BabulalBabu-lal,并且在通过OpenRefine运行此数据后,这两行将仅具有值Babu-lal

OpenRefine

[Screenshot of RAW data and data after Transformation]

数据转换前后

Before and After Transformation of Data

OpenRefine中用于转换此数据的算法使用键碰撞方法,键控功能为科隆拼音

帮助:我需要自动化此过程,此数据将存储在MS SQL Server Datawarehouse中,因此我愿意接受可应用于Excel数据或将此数据加载到执行此任务的SQL Server或Python脚本后的建议/方法


Tags: 数据方法名称示例sqlserver屏幕流程
1条回答
网友
1楼 · 发布于 2024-06-16 11:15:48

PyPI上有一个科隆语音模块:https://pypi.org/project/cologne-phonetics/

但是,请注意,人工审查是OpenRefine集群审查过程的关键部分。所有语音键控器的聚类都会产生误报。在上面的示例中,从对中选择哪个字符串OpenRefine作为目标是任意的。如果存在大量匹配项,它将选择频率最高的候选项(如果有的话),但仍然无法保证该候选项是正确的

相关问题 更多 >