一个用来搜集美国法院网站元数据的api。

juriscraper的Python项目详细描述


这是什么?

juriscraper是一个scraper库,几年前开始在美国法院系统中收集司法意见、口头辩论和pacer数据。它目前能够刮取:

  • Pacer系统中的各种页面和报告
  • 所有主要上诉联邦法院的意见
  • 来自除乔治亚州以外的所有州法院(通常是其"最高法院")的意见
  • 所有上诉联邦法院提供的口头辩论

法学家是由两部分组成的体系的一部分。第二部分是你的代码, 叫法学家。你的代码负责调用刮刀, 下载并保存其结果。的参考实现 呼叫方已开发并在使用 courtliner.com 。这个密码 可以找到调用方 这里。 此外,还有一个基本的示例调用程序 包含在 法学家 可用于测试或作为开发 自己。

本项目的一些设计目标是:

  • 可扩展性,支持视频、口头辩论音频等。
  • 支持地理位置的扩展性(美国、古巴、墨西哥、加利福尼亚)
  • 通过幻数进行mime类型标识
  • 具有最小代码重复的通用体系结构
  • 基于xpath的抓取由lxml的html解析器提供支持
  • 返回法院网站上所有可用的元数据(呼叫者可以选择 需要什么)
  • 不需要数据库
  • 清除日志级别(调试、信息、警告、严重)
  • 尽可能友好地访问网站

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用硬件相关VM参数(重新)启动Java应用程序的正确方法?   java有一个Eclipse插件弹出菜单,只有在选择文件夹时才会出现   java演示简单Ajax ans Servelt实现失败   java如何在不需要OAuth授权的情况下代表组织用户提供密码   java检查一个字符串是否等于另一个字符串的子字符串   java我可以从for循环中的1开始初始化2D数组吗   使用选择排序的java排序2D数组   java如何在一轮投票后重新开始,而不在其中存储统计数据   我的Java代码不断向文本文件添加重复项   java MapReduce Hadoop字长频率不起作用   试图保存Iterable时执行独立工作时发生java错误   java这两个源是同一个场景生成器吗?   java计划重试关联的JMS消息