2024-05-15 17:17:54 发布
网友
我需要在一个国家发展项目数据库中定位一系列条目。我对每个项目都有一个简短的概要,我想在其中确定市政当局(甚至更大的政治实体),以便稍后使用googlemapsapi对每个项目进行地理定位
我正在尝试不使用自然语言处理来提取地理信息。我不热衷于使用NLP,因为该项目位于小村庄,其名称我可以从其他来源获得
我正在考虑在空格上拆分文本,并尝试使用Python词汇表查找匹配项,其中值是村庄的名称,键是在空格处拆分的村庄的名称
示例:
“X项目已在荷兰海牙建成”。 会给我“海牙”
我建议使用NLP:-)或者至少一些与NLP相关的算法。 您可以在这里找到拥有超过500名市民的城市/城镇列表,其中包含有关GPS坐标、地区、国家和大陆http://www.geonames.org/或http://download.geonames.org/export/dump/readme.txt的信息 我将使用这些数据使用https://pypi.org/project/pyahocorasick/算法构建非常轻量级的名称实体识别。 在那之后,你可以有一个漂亮整洁的“树”/村庄-小区域-大区域-国家-大陆的层次结构(如果我没有错的话,甚至可以用GPS坐标)
试试https://geocode.xyz/textscan
https://geocode.xyz/?scantext=Project%20X%20has%20been%20built%20in%20The%20Hague,%20The%20Netherlands&geoit=XML
<geodata> <match> <location>The Hague,NL</location> <latt>52.06805</latt> <longt>4.29647</longt> <confidence>0.2</confidence> <MentionIndices>32</MentionIndices> <matchtype>locality</matchtype> </match> </geodata>
我建议使用NLP:-)或者至少一些与NLP相关的算法。 您可以在这里找到拥有超过500名市民的城市/城镇列表,其中包含有关GPS坐标、地区、国家和大陆http://www.geonames.org/或http://download.geonames.org/export/dump/readme.txt的信息 我将使用这些数据使用https://pypi.org/project/pyahocorasick/算法构建非常轻量级的名称实体识别。 在那之后,你可以有一个漂亮整洁的“树”/村庄-小区域-大区域-国家-大陆的层次结构(如果我没有错的话,甚至可以用GPS坐标)
试试https://geocode.xyz/textscan
https://geocode.xyz/?scantext=Project%20X%20has%20been%20built%20in%20The%20Hague,%20The%20Netherlands&geoit=XML
相关问题 更多 >
编程相关推荐