扩展feeditems和引用的条目主体
collective.feedfiller的Python项目详细描述
What is it?
feedfiller与zest软件的FeedFeeder
一起工作。包裹, 并提供填充每个新闻提要项的附加功能 它所指页面的干净正文内容。填料可以是 学习内容结构,帮助访问最有趣的页面 元素。 如果还不知道目标页的结构,它所能做的就是 包括整页。随着项目的发展,我们将对此进行改进。
显然,在重新发布 受版权保护的作品。但出于研究和分析的目的,这些 对你的组织来说是个问题。我们自己的目的是 内部使用的分类和分析文本。你应该 就这个问题征求你自己的法律意见。
Dependencies
美化组,产品。喂料器。如果你用鸡蛋包装, 这些依赖项将为您管理。
How does it work?
feedfiller订阅在存储每个新闻提要之后创建的事件 由FeedFeeder创建的项并获取该项的目标页。这个 意味着所有的条目都将被他们所引用的页面的内容填满 到。获取的页面被剥落(“剥落:动词:剥去皮肤或表面 ,由一个flayer通过url在flayerregistry中查找。
为了适应新的页面,flayers可能很容易编写。剥皮机可以是 为网站的不同部分创建和注册,以防HTML 场地的树木结构各不相同。
如果没有为url注册flayer,则使用默认flayer 返回页面的整个正文。
目前,特定网站的剥皮者试图揭示作者、版权和身体, 但是默认的flayer
flayer基类当前存储从 服务器,以便于进一步开发和改进剥皮机 不重复获取内容。
TODO
下一步是开发一个表驱动的flayer,其中的表条目 可以通过单击 默认flay,有点像页面结构的基本firebug视图 使用按钮手动选择页面的正文区域。这个遗嘱 为此,rmoy需要一个新的视图,供经理使用。
没有理由不让台驱动剥皮机处理 英国广播公司新闻页面的复杂性,只留下最棘手的页面 当前使用的自定义类方法。
表项最终应在所有其他feedfiller用户之间复制, 也许使用双向rsync使用中央存储库,或者 使用SVN。
CREDITS
该项目由俄罗斯托皮亚系统有限公司(Russ Ferriday)于年发起。 2008年11月。
感谢“跨境业务”对这项工作的赞助。
_业务范围:http://businessacrossborders.com/
感谢Zest软件和Van Rees兄弟提供的FeedFeeder。
欢迎投稿,投稿人名单如下: