我想从以下网站提取标题和说明:
查看源:http://www.virginaustralia.com/au/en/bookings/flights/make-a-booking/
使用以下源代码片段:
<title>Book a Virgin Australia Flight | Virgin Australia
</title>
<meta name="keywords" content="" />
<meta name="description" content="Search for and book Virgin Australia and partner flights to Australian and international destinations." />
我想要标题和元内容。
我用过鹅,但提取效果不好。这是我的代码:
website_title = [g.extract(url).title for url in clean_url_data]
以及
website_meta_description=[g.extract(urlw).meta_description for urlw in clean_url_data]
结果是空的
请检查BeautifulSoup作为解决方案。
对于上述问题,您可以使用以下代码提取“说明”信息:
输出:
你知道html-xpath吗? 使用lxml lib和xpath提取html元素是一种快速的方法。
相关问题 更多 >
编程相关推荐