使用Python2.7.6和ElementTree从文件系统加载/解析HTML文件,然后遍历该文件,将特定的正则表达式存储到数据结构中。
因此,在我的项目文件夹中,我有一个名为person.HTML的HTML文件:
<!DOCTYPE html>
<html>
<body>
<ul>
<li>Name: $name</li>
<li>Age: $age</li>
</ul>
</body>
</html>
到目前为止,这是我的Python脚本(main.py):
#!/usr/bin/env python
import web
import xml.etree.ElementTree as ElementTree
tree = ET.parse(person.html)
问题:
如何使用以$
(例如$name
和$age
)开头的RegEx或ElementTree值进行解析?
如何将这些值存储到将来可以遍历的数据结构中?
lxml
用于按标记搜索html。例如,如果要定位所有<li>
标记并获取其文本:如果目标文本可以位于任何标记中,则可以执行以下操作:
您可以使用
shelve
模块:如果您的最终目标是替换html中的那些变量,那么您的格式符合python的
template
格式:感谢Kevin&7stud,我让它像这样工作:
输出:
像这样使用RegEx怎么样:
^{} 返回一个列表,以便您可以这样使用它们:
相关问题 更多 >
编程相关推荐