lxml.html搜索和复制

2024-05-12 23:30:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要你的帮助或建议。在

我开始读一些关于python的书,就是因为我遇到了这样的问题:)但是我知道要学好整个语言需要很长时间。我也浏览和搜索lxml.html但我仍然可以找到我想要的方法。在

我为示例创建了两个html文件,以解释我的问题所在。您可以在这里看到这些代码:http://pzt.me/ltbj

还有一个不同的截图,以便更容易看到发生了什么。在

如果以前有人想做这样的事,或者你知道我该怎么做,请告诉我。在

谢谢。在

最好的, 约瑟夫

好的,这里是代码:

~~~~~~~~~~~
This:
~~~~~~~~~~~




新文档




<body>  
    <h2><a name="2" class="class1">2</a></h2> <a href="#top" class="class2">^ top ^</a>  
    <p><span class="class3">20</span>Sed imperdiet, lacus eu consectetur tempus, tellus metus vestibulum tortor, nec tincidunt nisl enim non tortor. <span class="class3">21</span>Nam in aliquam magna. Maecenas hendrerit fringilla dui facilisis aliquet. Phasellus neque justo, aliquet non pellentesque vel, dictum non libero. Phasellus vel nulla mi, id molestie purus. Suspendisse orci ante, imperdiet at tempus id, pulvinar eu mi. Aliquam erat volutpat. <span class="class3">22</span>Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Pellentesque pretium, ligula tristique porta fringilla, mauris lectus gravida nibh, consectetur ornare lacus tellus quis sem. <span class="class3">23</span>Curabitur nibh dui, feugiat sed luctus sed, laoreet sed tortor.</p>  
    <p><span class="class3">24</span>Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. <span class="class3">25</span>Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos.</p>  
    <p><span class="class3">26</span>Sed imperdiet, lacus eu consectetur tempus, "tellus metus vestibulum tortor, nec tincidunt nisl enim non tortor."</p>  
    <p><span class="class3">27</span></p>  
    <p>Nunc volutpat lacus;</p>  
    <p>Etiam sit amet dapibus;</p>  
    <p>Nunc consequat mauris.</p>                 
    <p><span class="class3">15</span>Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Nunc volutpat lacus a lacus dignissim sed iaculis metus consectetur. <span class="class3">17</span>Nunc consequat mauris nec ligula ullamcorper ut iaculis nibh sodales. "Nulla tincidunt lorem eu odio laoreet facilisis." <span class="class3">18</span>Aliquam erat volutpat. Curabitur sagittis, mauris quis laoreet consectetur, erat urna tincidunt augue, ut eleifend felis mi quis felis. <span class="class3">19</span>Vivamus a elit risus, consequat sagittis ligula. Nunc ut vestibulum ipsum. Curabitur at sapien vitae est egestas aliquam. <span class="class3">20</span> Donec porttitor, ligula vel venenatis posuere, purus nunc adipiscing ante, id pellentesque turpis nulla eu magna. <span class="class3">21</span>Praesent gravida, eros ut scelerisque commodo, magna quam volutpat elit, a aliquet neque ligula a mauris. <span class="class3">22</span>Curabitur nibh dui, feugiat sed luctus sed, laoreet sed tortor. <span class="class3">23</span>Lorem ipsum dolor sit:</p>   
    <p>Pellentesque pretium, ligula tristique</p>  
    <p>felis viverra;</p>  
    <p>justo lobortis ut "l"</p>  
    <p>unc ut consectetur fermentum.</p>          
    <p><span class="class3">14</span>Proin et tellus felis:</p>  
    <p>Suspendisse potenti,</p>  
    <p>enim non tortor</p>  
    <p>Donec porttitor.</p>  
    <p>Morbi eleifend fermentum</p>  
    <p>Aliquam id ante.</p>  
    <p><span class="class3">15</span></p>  
    <p>Curabitur nibh dui, feugiat sed luctus sed, laoreet sed tortor,</p>  
    <p>etiam ullamcorper.</p>  
    <p>vivamus interdum nulla,</p>  
    <p>odio laoreet facilisis.</p>     
    <p><span class="class3">20</span>Suspendisse potenti. Nam in aliquam magna. Maecenas hendrerit fringilla dui facilisis aliquet. <span class="class3">21</span>Suspendisse potenti. Nam in aliquam magna. Maecenas hendrerit fringilla dui facilisis aliquet. </p>  
</body>  

~~~~~~~~~~~~~~~~~~~~~~~
成为这样:
~~~~~~~~~~~~~~~~~~~~~~




新文档




^{pr2}$

在 在

不能包括图像。对不起的。如果你想看图片,你必须看到上面的链接。 谢谢。在


Tags: sedclassspannoneuutperclass3
2条回答

如果你的时间真的很短,那么在阅读了Dive Into Pythonhttp://diveintopython.net/html_processing/index.html)的第8章之后,你就可以完成你的任务了。在

唉,我强烈建议你从书的开头开始。在

正则表达式(同一本书第7章)也可能有很大的帮助。不过,我还不太明白你想达到什么目的。将<p></p>标记替换为<br/>?在

不管怎样,请看一下smgllib和{}模块。在

使用BeautifulGroup解析文档并在处理后重新创建文档。这是最容易做的事。我不会用lxml来做你想做的事。在

请看下面关于如何添加和删除标记的示例:

相关问题 更多 >