当我遇到html中的注释时,如何停止使用BeautifulGroup提取href标记?

2024-05-26 09:18:34 发布

您现在位置:Python中文网/ 问答频道 /正文

    03420&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03420">Nucleotide excision repair</a><br>
    03430&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03430">Mismatch repair</a><br>
    03440&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03440">Homologous recombination</a><br>
      </ul>
    </ul>
    <!-- -->
    <b>Environmental Information Processing</b>
    <ul>
     Membrane transport
      <ul>
    02010&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban02010">ABC transporters</a><br>

我需要从一个使用python的网页中提取路径代码(例如03420、03430等),这是我用beauthoulsoup完成的。我想在环境信息处理之前停止,所以我在这里寻找一些可以使用的不同标记。<!-- -->正处于最佳位置,但我不知道如何在这一点上停止。有人能告诉我是否/如何使用它来停止在注释之前提取代码。 (我对python和html很陌生,直接跳到web解析上来,所以请耐心等待。)


Tags: 代码brbinshowulhrefrepairkegg
3条回答

这是一个没有任何内容的HTML注释。在

就目前而言,它似乎没有意义,因为它在页面中没有填充任何功能,但它存在的原因可能是存在的。在服务器上显示信息可能有点冒险。在

如果它只是一个空的评论,页面的作者可能会决定清除它。在

下面标记中的文本看起来更可靠,因为它实际上在页面中起到了作用。在

它是html语法中的块注释。http://www.w3schools.com/html/html_comments.asp

HTMLXHTMLXML中,<! 开始一个注释范围, >完成它。它是一个注释,它不会影响浏览器上的结果,但会在响应上添加一些字节。在

<!  comment some text 
     and you can break lines.
     It is compatible for html, xhtml and xml.
 >

对于其他语言,您可以使用其他符号作为注释,例如:

^{pr2}$

如果您想在this link上查看有关注释的详细信息。在

相关问题 更多 >