使用正则表达式从html文件中提取国家级玩家列表的更好方法

问题陈述：

从下面的html代码生成国家级玩家列表

<ul> <li> Australia <ol> <li>Steven Smith</li> <li>David Warner</li> </ol> </li> <li> Bangladesh <ol> <li>Mashrafe Mortaza</li> <li>Tamim Iqbal</li> </ol> </li> <li> England <ol> <li>Eoin Morgan</li> <li>Jos Buttler</li> </ol> </li> </ul>

我的代码：

效果很好。我在找更好的代码。请帮帮我。你知道吗

import re with open('playerlist.html', 'r') as f: text = f.read() mytext = re.sub(r'[\n\t]', '', text) pat = r'<li>(\w+?)<ol><li>(\w+\s?\w+)</li><li>(\w+\s?\w+)</li>' cpat = re.compile(pat) result = cpat.findall(mytext) for a,b,c in result: print('{0}- {1}, {2}'.format(a,b,c))

1条回答

网友

1楼 · 发布于 2024-06-12 06:24:27

用regex解析xml/html数据从来都不是一个好主意。
使用xml/html解析器。你知道吗

使用xml.etree.ElementTree模块（其中一个解析器）的正确方法。你可以试试别的）：

import xml.etree.ElementTree as ET

root = ET.parse('playerlist.html').getroot()
for li in root.findall('.//li[ol]'):
    print(li.text.strip(), '- {}, {}'.format(*(i.text.strip() for i in li.findall('ol/li'))))

输出：

Australia - Steven Smith, David Warner
Bangladesh - Mashrafe Mortaza, Tamim Iqbal
England - Eoin Morgan, Jos Buttler

问题陈述：

预期产量：

我的代码：

相关问题更多 >

编程相关推荐

热门问题

热门文章