提取德语地址形式的Python正则表达式解决方案

# TEST COMPANY NAME string = 'Telekom Deutschland Gmbh 53169 Bonn Datum' result = re.findall(r'([a-zA-Zäöüß]+\s*?[A-Za-zäöüß]+\s*?[A-Za-zäöüß]?)',string,re.MULTILINE) print(result) # TEST STREET NAME result = re.findall(r'([a-zA-Zäöüß]+\s*\.)',string) print(result) # TEST STREET NUMBER result = re.findall(r'(\d{1,3}\s*[a-zA-Z]?[+|-]?\s*[\d{1,3}]?)',string) print(result) # TEST POSTAL CODE result = re.findall(r'(\d{5})',string) print(result) # TEST CITY NAME result = re.findall(r'([A-Za-z]+)?',string) print(result) # TEST COMBINED ADDRESS COMPONENTS GROUP result = re.findall(r'([a-zA-Zäöüß]+\s+?[A-Za-zäöüß]+\s+?[A-Za-zäöüß]+\s+([a-zA-Zäöüß]+\s*\.)+?\s+(\d{1,3}\s*[a-zA-Z]?[+|-]?\s*[\d{1,3}]?)+\s+(\d{5})+\s+([A-Za-z]+))',string) print(result)

1条回答

网友
1楼 · 发布于 2024-05-29 06:32:07

{{a1}对其他语言使用{a2，而不是^对其他语言使用}。您必须单独安装libpostal，因为它包含1.8GB的培训数据。在
好在，你可以给它地址部分的任何顺序，它会选择正确的部分大部分时间。它使用机器学习，在多种语言的OpenStreetMap数据上进行训练。在
对于给定的示例，不一定需要从字符串中删除公司名称和国家/地区：
from postal.parser import parse_address parse_address('Telekom Deutschland Gmbh 53169 Bonn Datum') [('telekom deutschland gmbh', 'house'), ('53169', 'postcode'), ('bonn', 'city'), ('datum', 'house')] parse_address('Keltenstr . 16 77971 Kippenheim') [('keltenstr', 'road'), ('16', 'house_number'), ('77971', 'postcode'), ('kippenheim', 'city')]

相关问题更多 >

编程相关推荐

热门问题

热门文章