从网页中提取基本信息的工具

pageinfo的Python项目详细描述


pageinfo是一个从网页中提取信息的简单模块。目前,pageinfo将从url返回以下内容,可用位置:



*canonical
*title
*说明
*favicon
*twitter卡数据
*facebook开放图数据



























上面的代码将返回带有可用的页面信息。以下是对“http://www.nytimes.com/pages/technology/index.html”的示例响应:

{
“canonical”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
“twitter”:{
“twitter:title”:“史蒂夫·乔布斯送的礼物回家”,
“twitter:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits brilliant jobs thumblarge.jpg”,
“twitter:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分被打包在医院地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“twitter:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
},

“favicon”:“http://bits.blogs.nytimes.com/favicon.ico”,

“facebook”:{
“og:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”,
“og:site\u name”:“bits blog”,
“og:type”:“article”,
“og:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分打包在医院里。地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“og:title”:“史蒂芬·乔布斯送的礼物回家”,
“og:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits-brilliant-jobs-videosixteenbynine600.jpg”


“描述”:“过去33年在尼泊尔加德满都度过的苹果II,大部分都被打包在医院的地下室里,是史蒂文·P·乔布斯慈善事业的罕见象征。”,

“标题”:“史蒂文·乔布斯送的礼物回家-纽约时报网”
}

一个最小的响应,使用:

import pageinfo

pageinfo.get_title('http://www.myurl.com')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java获取范围内的素数和总素数   JAVAlang.IllegalArgumentException:找不到无效的URL或资源。JavaFX图像   java我可以在vaadin中直接流式处理ZipFile吗?   apache poi java poi HSSFsheet如何添加包含图片的页眉和页脚?   java如何在swing中使用GridLayout使列大小不同?   java为什么JPasswordField中的getText()被弃用?   java整数对象是如何创建的?   java在JAAS的策略文件中授予URL权限   linux Openssl(shell脚本)相当于java解密代码   java是无服务器的,结合事件源是可能的吗?   java JPA双向Uknown列   javajavax。加密。IllegalBlockSizeException:解密加密的AES字符串时最后一个块未完成   java如何知道我的ProcessBuilder start()是否成功执行了这些命令   本地特定错误消息中的java插值   java控件SFX通知异常   java文本输入if语句JavaFX   swing java未连接到水平组   java泛型,迭代器>无法访问内部类函数   java如何跳过当前页并写入下一页?   java一次导入许多静态字符串