Scrapy选择XPath正文和链接文本

['<td><a href="somelink/agenda1.pdf">Agenda</a></td>'] ['<td>Meeting postponed</td>'] ['<td><a href="somelink/agenda2.pdf">Agenda</a></td>'] ['<td>Postponed</td>'] ['<td><a href="somelink/agenda3.pdf">Agenda</a></td>'] ['<td>Agenda</td>'] ['<td>Agenda</td>']

3条回答

网友

1楼 · 编辑于 2024-05-16 06:59:05

您可以使用的一种方法是regex。下面的正则表达式将捕获任何文本：>([A-Za-z ]+)<。你知道吗

然而，在Scrapy中可能有一个更好的方法，这样您就不必采取额外的步骤。你知道吗

网友

2楼 · 编辑于 2024-05-16 06:59:05

您可以尝试实现或（|），如下所示

'./a/text() | ./text()'

这意味着返回子链接文本或直接子文本节点或两者（如果两者都存在）

网友

3楼 · 编辑于 2024-05-16 06:59:05

您可以字符串化td内容：

   result_str = item.xpath('string(.//td[4])').extract_first()

编程相关推荐

java Play Framework 2.1中的简单搜索？
java：Springbeans的真正工作原理
java不能从字符串中提取数字
不同管道中的java共享ExecutionHandler
在Java中，如何为扩展comparator的类实现多个comparator方法？
通用混沌Java
java问题：从自定义类获取要添加到驱动程序类的形状
java如何利用HikariCP和Hibernate？
eclipse如何执行Java应用程序？
用户界面Java Swing：如何将JLabel的文本绑定到JTable选定行中的列？

相关问题更多 >

编程相关推荐

热门问题

热门文章