现有流程:团队在Excel电子表格中获取数据,然后电子表格数据通过OpenRefine(之前称为GoogleRefine)传递,并根据下面的屏幕截图进行键碰撞,基本上将具有类似名称的数据更正为一个
在此示例电子表格数据中,两行分别具有Babulal和Babu-lal,并且在通过OpenRefine运行此数据后,这两行将仅具有值Babu-lal
OpenRefine
数据转换前后
OpenRefine中用于转换此数据的算法使用键碰撞方法,键控功能为科隆拼音
帮助:我需要自动化此过程,此数据将存储在MS SQL Server Datawarehouse中,因此我愿意接受可应用于Excel数据或将此数据加载到执行此任务的SQL Server或Python脚本后的建议/方法
PyPI上有一个科隆语音模块:https://pypi.org/project/cologne-phonetics/
但是,请注意,人工审查是OpenRefine集群审查过程的关键部分。所有语音键控器的聚类都会产生误报。在上面的示例中,从对中选择哪个字符串OpenRefine作为目标是任意的。如果存在大量匹配项,它将选择频率最高的候选项(如果有的话),但仍然无法保证该候选项是正确的
相关问题 更多 >
编程相关推荐