用于训练深度规则集的命令行工具
fathom-web的Python项目详细描述
这是Fathom的命令行训练器,它本身是一个有监督的学习系统,用于识别网页的某些部分。它还包括用于规则集开发的其他命令行工具,如fathom-unzip、fathom-pick和fathom-list。See docs for the trainer here。
版本历史记录
- 3.1
- 添加fathom-list工具。
- 进一步优化训练器:对于60个样本的语料库,大约快17倍,对于更大的语料库,则有超线性改进。
- 3.0
- 转到Fathom Repo。
- 添加fathom-unzip和fathom-pick。
- 切换到adam优化器,这是非常关键的一点,它不需要手动设置学习速率衰减。
- 允许未收集候选节点的页。
- 为每页训练精度添加95%置信区间。
- 添加验证引导的提前停止。
- 修改每页精度计算和显示。
- 训练前洗牌训练样本。
- 将假阳性和假阴性数字添加到每个标记度量中。
- 3.0a1
- 首次发布,用于Fathom本身3.0或更高版本