数据分析库.特征提取,存储和检索

mldatalib的Python项目详细描述


mldatalib

mldatalib(机器学习数据库)提供了一个python库,它简化了处理和提取特性 (用于机器学习)从文件。 在sqlite数据库中存储特性,具有标签转换选项,将特性转换为numpy数组的函数, 等。 Viktor Evstratov的原创创意和功能列表(viktor.evst@gmail.com)。 最初设计用于卡格尔银河动物园挑战赛。 需要numpy和sqlalchemy。

为什么?

这是为了尽量减少提取、保存和检索新特性所需的工作量,并允许 用户花更多的时间在更“科学”的工作上。如果几个用户在同一个项目上工作, 它们可以分别提取独立的特征集,然后共享数据库文件并复制它们是的特征 不见了。

功能性

基本功能包括: 提取特征并将其存储在数据库中(用户提供提取器函数),检索特征 按名称,从文件中提取和转换标签并将其存储在数据库中,复制要素 从一个数据库到另一个数据库,以numpy数组的形式返回特性。

路线图

添加存储和检索特性的纯sql方式(通过将特性转换为json格式并通过alter创建列 表语句),因此允许从其他语言轻松使用。至少为numpy数组添加此功能 和列表。

为csv文件添加一个数据集类(其中所有数据都存储在一个csv文件中)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java ArrayOutOfBoundsException与org。日食swt。图样图像数据。布利特   java为什么Hazelcast CacheLoader类需要对所有客户端可见?   如何在java中迭代xml   java概要文件不是工件名称的一部分   java将多个Spring MVC应用程序映射到根Servlet   java SetContentView参数显示错误   java Cucumber类扩展步骤定义和挂钩   java如何动态添加JFace向导页面   amazon web services使用AWS Java SDK通过AWS API网关从S3下载文本文件   Android上的java软键盘   如何在Java中像在C#中一样创建泛型扩展方法?   使用JPA的java多列类型