创建一个webcomic存档的rss提要,以便慢慢阅读。
dripfeed的Python项目详细描述
创建一个webcomic存档的rss提要,以便进行缓慢的捕获。
每当我发现一个新的值得关注的网络剧时,我就会浪费几个小时(通常是晚上)来赶上 档案馆。这个工具是为了避免这个问题而存在的:我可以为漫画创建我自己的脚本,用它来安排它。 每天更新两三次,并将提要添加到我的普通提要阅读器中。只要dripfeed更新更多 通常比漫画作者,我的dripfeed最终会赶上,从那时起我可以切换到官方的feed。
示例用法
创建源:
dripfeed init gunnerkrigg # name for dripfeed commands like "update", "remove" (commandline-friendly) --rss ./gunnerkrigg.rss # rss file for output (will be created) --url 'http://gunnerkrigg.com/?p=1' # where to find the first page --next "//img[@src='http://www.gunnerkrigg.com/images/next_a.jpg']/.." # XPath for "next" link --name 'Gunnerkrigg Court' # optional long name for output (doesn't have to be commandline-friendly)
--next参数是一个XPath表达式,用于提取<a>元素,该元素的href指向下一页。 (此表达式将用于漫画的所有页面。)
这会将gunnerkrigg的配置放入位于~/.dripfeed.cfg的配置文件中(如果没有,则创建该文件 已经存在)。
正在运行:
dripfeed update gunnerkrigg
将更新位于./gunnerkrigg.rss的rss提要并将进度存储在~/.dripfeed.cfg:我希望此命令 做一份亲信工作
错误记录在rss提要中,您可以使用dripfeed update和--debug标志运行dripfeed update来查看完整的堆栈 错误的痕迹。
输出
rss提要条目故意非常简单:它们只包含指向页面的链接和一些占位符文本 告诉你你在看哪一集(从第一集的初始url开始计算)。
可以扩展该工具以包含某种程度的内容抓取:更多的xpath表达式可以 可选地提取漫画图像、标题、评论等。I不打算这样做;当然欢迎 分叉代码并做任何您喜欢的更改,但我不接受添加这些功能的pull请求。原因 我想让你访问原始漫画页面:靠网络漫画谋生已经够棘手的了,而且 许多漫画是直接或间接广告支持。这个脚本不是一个联合工具,它强调 我并不想让那些我钦佩的作者的工作变得更加困难。
要求
- python=2.6
许可证
麻省理工学院许可有关详细信息,请参阅捆绑的LICENSE文件。
待办事项
我不知道什么时候能找到这些,但这里有几件事我想做(也许更多 学习经验,而不是因为任务真正需要它):
- 交互式init,提示输入必要的参数并验证它们(特别是xpath)。
- 示例配置文件推送我最喜欢的网络经济。