一个用来搜集美国法院网站元数据的api。
juriscraper的Python项目详细描述
这是什么?
juriscraper是一个scraper库,几年前开始在美国法院系统中收集司法意见、口头辩论和pacer数据。它目前能够刮取:
- Pacer系统中的各种页面和报告
- 所有主要上诉联邦法院的意见
- 来自除乔治亚州以外的所有州法院(通常是其"最高法院")的意见
- 所有上诉联邦法院提供的口头辩论
法学家是由两部分组成的体系的一部分。第二部分是你的代码, 叫法学家。你的代码负责调用刮刀, 下载并保存其结果。的参考实现 呼叫方已开发并在使用 courtliner.com 。这个密码 可以找到调用方 这里。 此外,还有一个基本的示例调用程序 包含在 法学家 可用于测试或作为开发 自己。
本项目的一些设计目标是:
- 可扩展性,支持视频、口头辩论音频等。
- 支持地理位置的扩展性(美国、古巴、墨西哥、加利福尼亚)
- 通过幻数进行mime类型标识
- 具有最小代码重复的通用体系结构
- 基于xpath的抓取由lxml的html解析器提供支持
- 返回法院网站上所有可用的元数据(呼叫者可以选择 需要什么)
- 不需要数据库
- 清除日志级别(调试、信息、警告、严重)
- 尽可能友好地访问网站