从本地服务器对呈现的javascript模板进行爬网。

localcrawl的Python项目详细描述


Command line tool that crawls a local webserver with a headless browser and outputs static html files. Works well with html5validator to validate HTML5 from dynamic content with Javascript.
https://travis-ci.org/svenkreiss/localcrawl.svg?branch=master

运行localcrawl --help

https://raw.githubusercontent.com/svenkreiss/localcrawl/master/docs/help.png

幻影是必需的。它预先安装在Travisci上。在mac上运行brew install PhantomJS

命令示例

localcrawl --start _build/html/index.html --out _crawled/ --depth 3

胡子示例

这可用于将模板文件转换为HTML文件(例如,用于验证 使用html5validator)。

输入:

<html><head><title>Mustache Test</title></head><body><divid="output"></div><scripttype="text/javascript"src="https://cdnjs.cloudflare.com/ajax/libs/mustache.js/2.2.1/mustache.min.js"></script><script>vardata={item:'Fork',price:function(){return(1.10*1.08).toFixed(2);},};varhtml=Mustache.render('{{item}}: <b>${{price}}</b>',data);document.getElementById('output').innerHTML=html;</script></body></html>

已爬网的输出包括处理模板的输出 (Fork: <b>$1.19</b>):

<html><head><title>Mustache Test</title></head><body><divid="output">Fork: <b>$1.19</b></div><scripttype="text/javascript"src="https://cdnjs.cloudflare.com/ajax/libs/mustache.js/2.2.1/mustache.min.js"></script><script>vardata={item:'Fork',price:function(){return(1.10*1.08).toFixed(2);},};varhtml=Mustache.render('{{item}}: <b>${{price}}</b>',data);document.getElementById('output').innerHTML=html;</script></body></html>

应该玩得很好:

javascript模板引擎/js框架:

静态站点生成器:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在jetty请求日志中添加milliscond字段?   java在使用Scanner类从文件读取信息时遇到问题   为什么。类不适用于泛型类型?   SQLite插入上的java空指针异常   java能告诉我们Guava缓存是在禁用统计数据的情况下构建的吗?   java在应用程序中使用常量   java无法使用AutoIT和Selenium Webdriver在所需位置/文件夹保存图像   java如何在jtable中更新jprogress栏   java是比较给定日期和当前日期(在给定时区中没有时间段)的最佳方法   安卓代码中的java错误   java无法访问实体类中的字段   java如何在tomcat中处理三个JDBC连接池?   java无法使用Spring Security保护AngularJS页面   如何在没有TCP/IP协议栈的情况下用Java发送以太帧