一个python模块,使web抓取成为一个“单行”作业。
Tal0n的Python项目详细描述
塔隆 一个python模块,使它成为一个简单的任务刮网站。示例:talon.scrapeFunction(url)。
本作品在知识共享署名非商业共享4.0国际许可下获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by-nc-sa/4.0/。
python模块依赖项:
1.)操作系统2.)请求3.)wget 4.)美化输出
使用方法:
1.)将talon.pyc拖到项目文件夹中。2)在程序脚本的顶部,放置“import talon”,不加引号。3)调用你想要的函数。
如何修改源:
1.)在首选文本编辑器或IDE中打开talon.py。2)进城修改代码。只是普通的老Python。
功能:
getimages(url)-从HTML中提取图像源并生成包含图像的HTML文件。(images.html)
getLinks(URL)-从HTML中提取所有的Href链接并生成包含链接地址的TXT文件。(links.txt)
getsource(url)-从您选择的url下载html文件。(source.html)
getcontent(url)-提取网页中的所有内容。内容:“H1”、“H2”、“SPAN”、“P”。(content.txt)