使用CSS选择器和Python在表中创建多行单元格

import lxml.html from lxml.cssselect import CSSSelector # get some html import requests r = requests.get('http://canoeracing.org.uk/marathon/results/burton2016.htm') # build the DOM Tree tree = lxml.html.fromstring(r.text) # construct a CSS Selector sel1 = CSSSelector('body > table > tr > td:nth-child(2)') # Apply the selector to the DOM tree. results1 = sel1(tree) # get the text out of all the results data1 = [result.text for result in results1]

1条回答

网友

1楼 · 发布于 2024-05-16 23:45:42

问题是有些单元格包含多个由<br>分隔的文本节点。在这种情况下，查找所有文本节点并将它们连接起来：

data1 = [", ".join(result.xpath("text()")) for result in rows]

对于屏幕截图中提供的行，您将得到：

^{pr2}$
您也可以使用.text_content()方法，但是您将丢失文本节点之间的分隔符，从而在结果中得到类似于OSCAR HUISSOONFREJA WEBBER的内容。在

编程相关推荐

java无法使用JAXB配置Moxy
java如何让我的简单Swing telnet客户端正确显示字符？
java中从可运行线程调用主线程的多线程处理
java数据源。EBJ3会话bean中的getConnection（）
使用java和正则表达式从xml文件提取值时出现问题
java定制Jersy胡须Mvc
在Java中，“限制并发”是什么意思？
java有没有更干净的方法可以在这里使用Optional，而不在三个地方返回“NA”？
java Tomcat启动，然后崩溃，除非我打电话
java理解客户机和服务器

相关问题更多 >

编程相关推荐

热门问题

热门文章