一个简单的工具,用于在HTML文档中提取文章的文本。
eatiht的Python项目详细描述
最新消息
查看我的最新项目: 自动完成-适合儿童和成人 机器练习 学习
我正在与tim weninger合作。 在必读数据驱动的意见稿中(发布日期待定)。我 基准eatiht和更多内容提取器;您可以按照 当前工作 在这里!
阅读马修·彼得斯的文章 以eatiht为基准,以及用 蟒蛇. < /P>
tl;dr:eatiht的etv2速度很快,但不太准确(我自己的研究 表明原始算法更可靠。
查看eatiht的网站 在那里我走过了原始算法的每一步!
关注我的Twitter:)