一个python模块,使web抓取成为一个“单行”作业。

Tal0n的Python项目详细描述


塔隆 一个python模块,使它成为一个简单的任务刮网站。示例:talon.scrapeFunction(url)。

本作品在知识共享署名非商业共享4.0国际许可下获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by-nc-sa/4.0/

python模块依赖项:

1.)操作系统2.)请求3.)wget 4.)美化输出

使用方法:

1.)将talon.pyc拖到项目文件夹中。2)在程序脚本的顶部,放置“import talon”,不加引号。3)调用你想要的函数。

如何修改源:

1.)在首选文本编辑器或IDE中打开talon.py。2)进城修改代码。只是普通的老Python。

功能:

getimages(url)-从HTML中提取图像源并生成包含图像的HTML文件。(images.html)

getLinks(URL)-从HTML中提取所有的Href链接并生成包含链接地址的TXT文件。(links.txt)

getsource(url)-从您选择的url下载html文件。(source.html)

getcontent(url)-提取网页中的所有内容。内容:“H1”、“H2”、“SPAN”、“P”。(content.txt)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Admob不使用webview   Java Wicket表单:序列化对象类“myClassName”时出错   java googledriveapi更新文件与我的帐户管理员   java简单框架未知xml标记解析   java如何使用主类和用户获取Spark应用程序ID   java如何更改自定义属性的值?   java有没有办法在jMock中找到未使用的期望值?   gradle运行任务的java文档?   java通过使用数组来存储文本文件的行,通过覆盖来删除文本文件中的行   用于表达式语言注入的java利用负载   java IDEStyle程序运行   java在运行时启用/禁用Springws   爪哇芦苇。formatNumber NullPointException   java为什么我的代码无法检测两个动态实体之间的碰撞?