数据分析库.特征提取,存储和检索
mldatalib的Python项目详细描述
mldatalib
mldatalib(机器学习数据库)提供了一个python库,它简化了处理和提取特性 (用于机器学习)从文件。 在sqlite数据库中存储特性,具有标签转换选项,将特性转换为numpy数组的函数, 等。 Viktor Evstratov的原创创意和功能列表(viktor.evst@gmail.com)。 最初设计用于卡格尔银河动物园挑战赛。 需要numpy和sqlalchemy。
为什么?
这是为了尽量减少提取、保存和检索新特性所需的工作量,并允许 用户花更多的时间在更“科学”的工作上。如果几个用户在同一个项目上工作, 它们可以分别提取独立的特征集,然后共享数据库文件并复制它们是的特征 不见了。
功能性
基本功能包括: 提取特征并将其存储在数据库中(用户提供提取器函数),检索特征 按名称,从文件中提取和转换标签并将其存储在数据库中,复制要素 从一个数据库到另一个数据库,以numpy数组的形式返回特性。
路线图
添加存储和检索特性的纯sql方式(通过将特性转换为json格式并通过alter创建列 表语句),因此允许从其他语言轻松使用。至少为numpy数组添加此功能 和列表。
为csv文件添加一个数据集类(其中所有数据都存储在一个csv文件中)。