from lxml import html
import requests
for i in range(44,530): # Number of pages plus one
url = "http://postscapes.com/companies/r/{}".format(i)
page = requests.get(url)
tree = html.fromstring(page.content)
contactemail = tree.xpath('//*[@id="rt-mainbody"]/div/div/div[2]/div[4]/address/a')
print contactemail
我试图从一个公司目录的900个不同页面中获取电子邮件。HTML代码在每个页面中都是相对相似的。但是,Contactemail返回元素值。上面的XPath是下面代码的href值。 只想摘录联系邮箱:23-de-enero.com通过XPath从href值中获取,但我不知道从哪里开始。我还希望此功能适用于不同的页面,而不仅仅是此href value/webpage。
^{pr2}$我研究过regex,并尝试用contactemail.textcontent()
打印,但它不起作用。在
有什么提示吗?在
有一些方法可以提取相同的值,即电子邮件地址,例如:
如果一个
^{pr2}$address
父元素中可能有多个a
元素,则可以使用列表理解语法:相关问题 更多 >
编程相关推荐