grep for html;cli for pyquery
pquer的Python项目详细描述
pquery
==
grep for html;针对pyquery的cli
``````
$curl-s http://github.com/hupili/pquery pquery''''-p content a'-p text
.gi忽略
license
license
manifest。在
readme.md
pquery
pquery
``````
`` pquery`打算集成到您的unix管道中。
安装##
````
用法:
pquery<;selector>;
pquery<;selector>;-p<;projector>;
pquery<;selector>;-f<;selector>;-p<;selector>;&p<;p<;selector>;
pquery-h;--help
``````>-p选项:
-p:将dict投影到字段`<;projector>;``>>
-f:相当于`<;format<;format>;format>格式(项)`,
其中item是一个选定html元素的dict形式。
-h-v:显示此文档。
dict键:
“标记”:html标记
“html”:元素的内部html
“文本”:元素的内部文本
…:[可选]其他属性:例如,'**行**.
HTML是结构化的,不适合行处理器。
CSS选择器是HTML的天然grep。
此脚本只需包装[pyquery](http://pyquery.readthedocs.org/en/latest/)以提供一个客户端。
\example 1
a[课程网页](https://class.coursera.org/crypto-008/wiki/讲师幻灯片库)
在“pdf”和“pptx”中。
想下载所有的pdf。
这节省了你一些点击量。
`````
wget--load cookiecookie=cookie.txt-o-'https://class.coursera.org/crypto-008/wiki/讲师lidesplispubliccourse'pquery a-p a-p-a-p-grep pdf;xargs-p 5-i{}wget{}
``````
直接给grep下载所有的pdf文件直接给grep下载所有的pdf都是单调乏味的。
直接给grep直接给grep直接给grepdf链接来自HTML格式。
==
grep for html;针对pyquery的cli
``````
$curl-s http://github.com/hupili/pquery pquery''''-p content a'-p text
.gi忽略
license
license
manifest。在
readme.md
pquery
pquery
``````
`` pquery`打算集成到您的unix管道中。
安装##
````
用法:
pquery<;selector>;
pquery<;selector>;-p<;projector>;
pquery<;selector>;-f<;selector>;-p<;selector>;&p<;p<;selector>;
pquery-h;--help
``````>-p选项:
-p:将dict投影到字段`<;projector>;``>>
-f:相当于`<;format<;format>;format>格式(项)`,
其中item是一个选定html元素的dict形式。
-h-v:显示此文档。
dict键:
“标记”:html标记
“html”:元素的内部html
“文本”:元素的内部文本
…:[可选]其他属性:例如,'**行**.
HTML是结构化的,不适合行处理器。
CSS选择器是HTML的天然grep。
此脚本只需包装[pyquery](http://pyquery.readthedocs.org/en/latest/)以提供一个客户端。
\example 1
a[课程网页](https://class.coursera.org/crypto-008/wiki/讲师幻灯片库)
在“pdf”和“pptx”中。
想下载所有的pdf。
这节省了你一些点击量。
`````
wget--load cookiecookie=cookie.txt-o-'https://class.coursera.org/crypto-008/wiki/讲师lidesplispubliccourse'pquery a-p a-p-a-p-grep pdf;xargs-p 5-i{}wget{}
``````
直接给grep下载所有的pdf文件直接给grep下载所有的pdf都是单调乏味的。
直接给grep直接给grep直接给grepdf链接来自HTML格式。