Python:如何从文本字符串中删除HTML头部?
可能是重复的问题:
使用Python,删除字符串中的HTML标签/格式
我在一个HTML文件中读取了内容:
fi = open("Tree.html", "r")
text = fi.read()
我想从文本中删除HTML的头部信息:
text = re.sub("<head>.*?</head>", "", text)
为什么这样做不行呢?
相关问题:
1 个回答
1
看起来你没有处理换行符。你需要加上DOTALL这个标志。
text = re.sub("<head>.*?</head>", "", text, flags=re.DOTALL)