如何获取html标记？

2条回答

网友

1楼 · 编辑于 2024-06-16 11:56:12

我想这就是你想要的：

html_string = ''.join(input_file.readlines())
matches = re.findall('<.*?>', html_string)
for m in matches:
    print m

希望这有帮助

网友

2楼 · 编辑于 2024-06-16 11:56:12

Python对此有一个HTMLParser模块。

这里有一些代码可以满足您的需要：

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print "<%s>"%tag

    def handle_endtag(self, tag):
        print "</%s>"%tag

parser = MyHTMLParser();
parser.feed("""<html><head>Headline<html><head>more words
        </script>even more words</script>
        <html><head>Headline<html><head>more words
        </script>even more words</script>
        """)

在parser.feed中输入字符串

输出：

$ python htmlparser.py 
<html>
<head>
<html>
<head>
</script>
</script>
<html>
<head>
<html>
<head>
</script>
</script>

关于SO的讨论应该有助于：Using HTMLParser in Python efficiently

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何获取html标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >