从本地服务器对呈现的javascript模板进行爬网。
localcrawl的Python项目详细描述
Command line tool that crawls a local webserver with a headless browser and outputs static html files. Works well with html5validator to validate HTML5 from dynamic content with Javascript.
运行localcrawl --help:
幻影是必需的。它预先安装在Travisci上。在mac上运行brew install PhantomJS。
命令示例
localcrawl --start _build/html/index.html --out _crawled/ --depth 3
胡子示例
这可用于将模板文件转换为HTML文件(例如,用于验证 使用html5validator)。
输入:
<html><head><title>Mustache Test</title></head><body><divid="output"></div><scripttype="text/javascript"src="https://cdnjs.cloudflare.com/ajax/libs/mustache.js/2.2.1/mustache.min.js"></script><script>vardata={item:'Fork',price:function(){return(1.10*1.08).toFixed(2);},};varhtml=Mustache.render('{{item}}: <b>${{price}}</b>',data);document.getElementById('output').innerHTML=html;</script></body></html>
已爬网的输出包括处理模板的输出 (Fork: <b>$1.19</b>):
<html><head><title>Mustache Test</title></head><body><divid="output">Fork: <b>$1.19</b></div><scripttype="text/javascript"src="https://cdnjs.cloudflare.com/ajax/libs/mustache.js/2.2.1/mustache.min.js"></script><script>vardata={item:'Fork',price:function(){return(1.10*1.08).toFixed(2);},};varhtml=Mustache.render('{{item}}: <b>${{price}}</b>',data);document.getElementById('output').innerHTML=html;</script></body></html>
应该玩得很好:
javascript模板引擎/js框架:
静态站点生成器: