建立和使用数据科学的框架
lore的Python项目详细描述
功能
- 模型支持对具有数据管道的估计器进行超参数搜索。它们将通过两种不同的策略有效地利用多个GPU(如果可用),并且可以保存和分发以实现水平可伸缩性。
- 支持来自多个包的估计器: keras (tensorflow/theano/cntk)、 xgboost 和 scikit learn 。它们都可以通过build、fit或predict重写来进行子类化,以完全定制您的算法和体系结构,同时还能从其他方面获益。
- 管道避免了列车和测试集之间的信息泄漏,一条管道允许使用许多不同的估计器进行实验。如果超过机器的可用RAM,则可以使用基于磁盘的管道。
- 变形金刚标准化先进的功能工程。例如,使用美国人口普查数据将美国人的名字转换为其统计年龄或性别。从免费电话号码字符串中提取地理区域代码。通过pandas有效地支持常见的日期、时间和字符串操作。
- 编码器为您的估计器提供稳健的输入,并避免丢失和长尾值的常见问题。它们经过了很好的测试,可以帮助您避免垃圾输入/输出。
- IO连接在应用程序中以标准方式配置和池化,用于流行的(no)SQL数据库,对大容量数据进行事务管理和读写优化,而不是典型的ORM单行操作。除了用于分发模型和数据集的加密s3存储桶之外,连接还共享一个可配置的查询缓存。
- 开发中的每个应用程序的依赖关系管理,可以100%复制到生产中。没有手动激活,也没有magic env vars,也没有隐藏的文件破坏python。无需了解VenV、PyenV、PyVenV、VirtualenV、VirtualenvWrapper、PipenV、Conda。没人有时间了。
- 模型测试可以在您的持续集成环境中运行,允许代码和培训更新的持续部署,而无需增加基础架构团队的工作量。
- 无论您喜欢命令行、python控制台、jupyter笔记本还是ide,工作流都支持。每个环境都得到可读的日志记录和为生产和开发配置的计时语句