如何使用“skype_2cu容器”与Scrapy刮取电话号码?

2024-05-29 02:42:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我试着在名为“skype_c2c_container”或“skype_c2c_container notranslate”(实际上是网站上公布的电话号码)后面的文本。在

例如这个网站:http://adcamfabrications.co.uk/ 或者在这个:http://aandbairsystems.co.uk/

我知道如何提取网站上的所有文本,然后可能使用电话号码的模式识别,但我相信有一种更简单的方法。我试图通过meta-name或div-id或div-name来提取文本,但无法对包含特定单词的span名称(例如“skype”)进行相同的提取。在

我尝试过的其中一个代码示例:

 item["phone_number"] =response.xpath('//span[contains(@class, "Skype")] | //span[contains(@class, "skype")]').extract()

或者:

^{pr2}$

我试图提取的示例:

<span class="skype_c2c_text_span">+44 (0) 1234 1234</span>

我想要回短信: “+44(0)1234 1234”


Tags: name文本divhttp示例网站container电话号码
1条回答
网友
1楼 · 发布于 2024-05-29 02:42:51

找到带有Tel文本的元素,并获得下面的文本同级:

$ scrapy shell http://adcamfabrications.co.uk/
In [1]: response.xpath("//span[. = 'Tel']/following-sibling::text()").extract()[0].strip()
Out[1]: u'+44 (0) 1889 571690'

对于第二个网站:

^{pr2}$

相关问题 更多 >

    热门问题