只返回段落的第一部分，直到遇到子标记为止？

1条回答

网友

1楼 · 发布于 2024-04-25 06:01:18

我不知道scrapy是否有适当的选择器忽略嵌套的<sub>。我建议您使用re模块来忽略这个孩子。顺便说一下，从长远来看，这不是一个解决办法。不应该使用regex解析HTML。有关详细信息，请查看此线程RegEx match open tags except XHTML self-contained tags

试试这个：

import re
def parse(self,response):
    extracted_p_tag=response.css('div.render p').get()
    ignored_sup=re.sub('<sup>(.*)</sup>','',extracted_p_tag)

编程相关推荐

从数组返回类类型的java
关于Executor服务的java澄清
java在Eclipse中找不到快捷菜单
如何在java中只打印时间？
创建不可由GC收集的java类
java有向边图的逆
java Dijital海洋空间列表对象不工作
java Play 1.2.4 findByID不适用于复合Id
如何在Java中使用switch语句添加两个整数
我的log4jjava问题。lang.ClassNotFoundException:=org。阿帕奇。log4j。滚动文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

只返回段落的第一部分，直到遇到子标记为止？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >