一个简单的python web scraper

simplescraper的Python项目详细描述


python scraper
==


一个由python制作的简单web scraper,充满爱:


代码::sh

pip install simplescraper



用法:
----


对网页进行简单调用,让我们调用“www.test.com”

。代码::python

代码::javascript

{
url:'http://www.test.com',
source:'www.test.com',
image:'http://www.test.com/some/random/image.png',
title:'just a test page'
}

如果网页需要使用https协议才能访问,您可以将其称为:“https://www.test.com”,这不是必需的,因为scraper会检查是否需要该协议。

get iframe:
~~~~~~~~~~~~

……代码::python

result=test.get_scraped_data('https://www.youtube.com/watch?v=dqw4w9wgxcq')

输出:
~~~~~~~~

…代码::javascript

{
描述:'rick astley-永不放弃(官方音乐视频)-收听spotify:http://smarturl.it/astleyspotify下载rick的第一张专辑“50”-http…',
标题:'rick astley-永不放弃',
url:'http s://www.youtube.com/watch?
图片:http://i.ytimmg.com/vi/dqww4ww9wwwxcq/maxresdefault.jpg,
来源:www.youtube.com,
iframe:'<;iframe src=“http://www.youtube.com/embed/dqw4w9wwwxcq”height=“720”width=“1280”>;lt;iframe>;'

这是在“github”网站上,这是在“github”上,这是在“github”网站上,这是在“github”上,这是在“github”网站上,这是在“github”网站呃,让我们我
>知道我是否在某个地方断送了它。


>用来制造这件东西的东西:
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~`beautulsoup4<;http://github.com/getanewsleet/beautulsoup4>;``~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~>超棒的HTML5解析器

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何强制用户在允许访问活动之前处理对话框?我的许可证代码怎么了?   java ArraysList作为JSON   mysql如何在java中创建包含多个可选where子句的搜索语句?   java如何让Apache Camel在“直接”路径的末尾删除文件?   使用socket在两个Androids之间进行java实时数据传输。IO(websocket)和4G   如何在java中实现两个CORBA服务器之间的通信   会话树xml表示为java对象   java Skype4Java编号swtwin323325   java RecyclerView getAdapterPosition()不工作:第一次单击返回正确位置,第二次单击返回1   java在$TOMCAT/conf/context上为JNDI设置资源。xml   java为什么第二个矩形冲突在第一个矩形冲突时不起作用?   JScrollPane上的java JTextArea未出现在JPanel上   java如何将实现的PriorityQueue打印为字符串?   jpa使用Jersey更新用户角色RESTJava(JAXRS)