在上运行多个Regex

import os import re def query(): f = open('company.txt', 'r') names = re.findall(r'<h2>(.*?)</h2>', f.read(), re.DOTALL) for name in names: print name if __name__=="__main__": query()

<h2>Planner</h2> area_place = 'City of Angels'; area_code = 'B21'; period = 'Summer'; ... more content <h2>Executive</h2> area_place = 'London'; area_code = 'D33'; period = 'Winter'; ...more content

1条回答

网友

1楼 · 发布于 2024-05-13 12:53:34

这在Python 2.7中为我提供了测试数据，请尝试一下：

import os
import re

def query():
    f = open('company.txt', 'r')    
    names = re.findall(r"<h2>(.+?)</h2>.*?area_code = '(.+?)'", f.read(), re.DOTALL)
    for name in names:
        print name[0] + " | " + name[1]

if __name__=="__main__":
    query()

基本上，我只是将两个查询合并到一个查询中，然后以数字形式指定捕获组。你可能想重新命名“名字”，因为我这样做没什么意义。你知道吗

或者，如果您希望保留现有查询，并且可以假设它们的长度都相同，则可以执行以下操作：

names = re.findall(your names regex)
area_codes = re.findall(your area code regex)

for i in range(len(names)):  //very dangerous, if there's one failed match many entries may be mismatched!
    print names[i] + " | " + area_codes[i]

但是，除非您对数据的规律性非常有信心，否则我不推荐这种方法。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章