存档web文章

webarchive的Python项目详细描述


网络档案

Webarchive是命令行web页面提取器,它产生可读性 请求的网页的内容。它可以处理url、本地文件路径和 标准输入。在

特点

以下命令显示了如何将webarchive与web页面一起提供 内容:

$ webarchive https://example.com

$ webarchive "$HOME/index.html"

$ webarchive - < "$HOME/index.html"

然后输出各种格式的文本:

  • 降价
  • HTML格式
  • 纯文本

如果可读性算法对特定的网页不起作用,webarchive 可以使用提供页面文本转储的外部命令。示例 这些程序中有命令行web浏览器,如links或w3m

^{pr2}$

Webarchive自动检测并提供上下文信息 比如页面标题,可以在YAML前面加上标题。如果 webarchive输出稍后由其他理解YML的工具处理 正面内容,如pandoc:

$ webarchive https://example.com -t md | \
    pandoc -f markdown --standalone > article.html
$ ebook-convert article.html article.epub  # ebook-convert is part of Calibre

此外,还提供了一个GUI包装器,它也是脚本友好的 将所有保存的文件打印到标准输出。在

#!/bin/shfor f in `webarchive-qt`;do
  pandoc "$f" --standalone > article.html
  ebook-convert article.html article.epub
  mutt -a "article.epub" -s "Good article I found" -- alice@example.com
  rm -f "article.html""article.epub""$f"done

它很小,但是很强大:

  • 允许编辑已分析的页面
  • 自动检测系统剪贴板中的URL并用 他们
  • 当前URL内容将被缓存,直到URL更改-更改输出 格式不会再次下载整个页面。在
  • 定义多个键盘快捷键(ctrl-s代表保存,enter代表页面 重新下载)

安装

$ pip3 install webarchive

要安装GUI包装器(webarchive qt)的依赖项,请执行以下操作:

$ pip3 install webarchive[gui]

您可以使用pipx和pipsi等工具自动安装webarchive 及其对隔离环境的依赖性:

$ pipx install 'webarchive[gui]'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spring启动启用HTTPS   actionscript 3 java中的这个[“var”+“name”]   java只匹配给定集合中一个字符的一个匹配项   java Hibernate:防止角色表中出现多个相同的条目   javajersey+Spring注入servlet请求   java HtmlEditor javafx失去焦点   java Apache Wicket AjaxRequestTarget ListView组件未刷新或更新   mysql java。无法将lang.String转换为java。sql。时间戳   java将巨大的整数文件(在一行中)拆分为具有内存限制的已排序块   安卓如何完全关闭proguard?   安装Eclipse和Android SDK后的java“无AVD可用”消息   java动态显示图像视图   java在Spring中还有哪些WebsocketClient实现?   java Glassfish需要很长时间才能重新启动   使用Java简单串行连接器将pc与arduino连接   java如何在camel文件组件配置中结合readLockCheckInterval和maxMessagesPerPoll?   单击Android时的java预览图像   java如何将字节数组转换为ByteArrayOutputStream