从网页中提取基本信息的工具
pageinfo的Python项目详细描述
pageinfo是一个从网页中提取信息的简单模块。目前,pageinfo将从url返回以下内容,可用位置:
*canonical
*title
*说明
*favicon
*twitter卡数据
*facebook开放图数据
>上面的代码将返回带有可用的页面信息。以下是对“http://www.nytimes.com/pages/technology/index.html”的示例响应:
{
“canonical”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
“twitter”:{
“twitter:title”:“史蒂夫·乔布斯送的礼物回家”,
“twitter:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits brilliant jobs thumblarge.jpg”,
“twitter:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分被打包在医院地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“twitter:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
},
“favicon”:“http://bits.blogs.nytimes.com/favicon.ico”,
“facebook”:{
“og:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”,
“og:site\u name”:“bits blog”,
“og:type”:“article”,
“og:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分打包在医院里。地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“og:title”:“史蒂芬·乔布斯送的礼物回家”,
“og:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits-brilliant-jobs-videosixteenbynine600.jpg”
,
“描述”:“过去33年在尼泊尔加德满都度过的苹果II,大部分都被打包在医院的地下室里,是史蒂文·P·乔布斯慈善事业的罕见象征。”,
“标题”:“史蒂文·乔布斯送的礼物回家-纽约时报网”
}
一个最小的响应,使用:
import pageinfo
pageinfo.get_title('http://www.myurl.com')
*canonical
*title
*说明
*favicon
*twitter卡数据
*facebook开放图数据
>上面的代码将返回带有可用的页面信息。以下是对“http://www.nytimes.com/pages/technology/index.html”的示例响应:
{
“canonical”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
“twitter”:{
“twitter:title”:“史蒂夫·乔布斯送的礼物回家”,
“twitter:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits brilliant jobs thumblarge.jpg”,
“twitter:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分被打包在医院地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“twitter:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
},
“favicon”:“http://bits.blogs.nytimes.com/favicon.ico”,
“facebook”:{
“og:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”,
“og:site\u name”:“bits blog”,
“og:type”:“article”,
“og:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分打包在医院里。地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“og:title”:“史蒂芬·乔布斯送的礼物回家”,
“og:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits-brilliant-jobs-videosixteenbynine600.jpg”
,
“描述”:“过去33年在尼泊尔加德满都度过的苹果II,大部分都被打包在医院的地下室里,是史蒂文·P·乔布斯慈善事业的罕见象征。”,
“标题”:“史蒂文·乔布斯送的礼物回家-纽约时报网”
}
一个最小的响应,使用:
import pageinfo
pageinfo.get_title('http://www.myurl.com')