扩展feeditems和引用的条目主体

collective.feedfiller的Python项目详细描述


What is it?

feedfiller与zest软件的FeedFeeder

一起工作。

包裹, 并提供填充每个新闻提要项的附加功能 它所指页面的干净正文内容。填料可以是 学习内容结构,帮助访问最有趣的页面 元素。 如果还不知道目标页的结构,它所能做的就是 包括整页。随着项目的发展,我们将对此进行改进。

显然,在重新发布 受版权保护的作品。但出于研究和分析的目的,这些 对你的组织来说是个问题。我们自己的目的是 内部使用的分类和分析文本。你应该 就这个问题征求你自己的法律意见。

Dependencies

美化组,产品。喂料器。如果你用鸡蛋包装, 这些依赖项将为您管理。

How does it work?

feedfiller订阅在存储每个新闻提要之后创建的事件 由FeedFeeder创建的项并获取该项的目标页。这个 意味着所有的条目都将被他们所引用的页面的内容填满 到。获取的页面被剥落(“剥落:动词:剥去皮肤或表面 ,由一个flayer通过url在flayerregistry中查找。

为了适应新的页面,flayers可能很容易编写。剥皮机可以是 为网站的不同部分创建和注册,以防HTML 场地的树木结构各不相同。

如果没有为url注册flayer,则使用默认flayer 返回页面的整个正文。

目前,特定网站的剥皮者试图揭示作者、版权和身体, 但是默认的flayer

flayer基类当前存储从 服务器,以便于进一步开发和改进剥皮机 不重复获取内容。

TODO

下一步是开发一个表驱动的flayer,其中的表条目 可以通过单击 默认flay,有点像页面结构的基本firebug视图 使用按钮手动选择页面的正文区域。这个遗嘱 为此,rmoy需要一个新的视图,供经理使用。

没有理由不让台驱动剥皮机处理 英国广播公司新闻页面的复杂性,只留下最棘手的页面 当前使用的自定义类方法。

表项最终应在所有其他feedfiller用户之间复制, 也许使用双向rsync使用中央存储库,或者 使用SVN。

CREDITS

该项目由俄罗斯托皮亚系统有限公司(Russ Ferriday)于年发起。 2008年11月。

感谢“跨境业务”对这项工作的赞助。

_业务范围:http://businessacrossborders.com/

感谢Zest软件和Van Rees兄弟提供的FeedFeeder。

欢迎投稿,投稿人名单如下:

Changelog

0.1-未发布

  • 初始版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
内部嵌套滚动视图的java Recyclerview?   返回空值的java MapPartitionFunction   java无法访问apache模块源代码中的系统定义的环境变量   java需要帮助确定用户输入的最大值和最小值   java检查文件是否存在,如果存在,则创建一个编号更高的新文件   针对许多不正确XML文档的XSD的XML验证在Java中不报告任何错误?   java有没有一种方法可以将json字符串甚至JSONObject发送给POSTMAN,而不在每个双引号前加斜杠?   java如何获得频域中两个音频信号的比率?   java 安卓 studio理解错误   java插入到部分填充的数组中   java使用流<String>创建流<CustomType>?   java开放式按键应用程序   java获取zxing生成的图像路径   使用shibboleth sso的java授权   java在运行时更改bean类名   javajooq如何从表中选择min'id'   java通过Eclipse web项目运行hadoop mapreduce字数   java同步方法与非同步方法同时执行   方法每次返回一个不同的加密字符数组   java获取ArrayList的每个元素中出现的特定字符的频率<String>