基于特征的熊猫数据结构验证模块。
pysemantic的Python项目详细描述
pysemantic
一个基于特征的熊猫数据结构验证和数据清理模块。
依赖性
- 特征
- 皮亚姆
- 熊猫
- docopt
快速启动
使用PIP安装
运行:
$ pip install pysemantic
从源安装
您可以通过克隆此存储库、安装 依赖项和运行:
$ python setup.py install
在本地克隆的根目录中。
用法
在主目录中创建一个名为pysemantic.conf的空文件。这可以像运行一样简单:
$ touch ~/pysemantic.conf
安装pysemantic之后,应该有一个名为 semantic。通过运行:
$ semantic list
这应该没什么用。这意味着你没有任何项目注册 在pysemantic下。pysemantic中的一个项目只是一组数据集。 pysemantic管理数据集,就像ide管理源代码文件一样 它将它们分组到不同的项目下,每个项目都有自己的树 结构、构建工具链、需求等类似、不同 pysemantic项目在它们下面分组一组数据集,并管理它们 取决于其各自的用户定义规范。项目是 以他们的名字唯一标识。
现在,让我们添加并配置一个名为,simply, “pysemantic_demo”。您可以创建一个项目并用pysemantic注册它 使用semantic脚本的add子命令如下:
$ semantic add pysemantic_demo
如您所见,这不适合使用add子命令。 我们还需要一个包含此项目规范的文件。 (请注意,包含规范的本文件在 文档可交换为specfile或data dictionary) 在我们创建这个文件之前,让我们下载著名的fisher iris数据集, 我们将使用它作为这个演示的示例数据集。你可以下载它 here。
下载数据集后,启动您喜爱的文本编辑器并创建 名为demo_specs.yaml的文件。用下面的内容填充它。
iris:path:/absolute/path/to/iris.csv
现在我们可以使用这个文件作为^{tt7}的数据字典$ 项目。让我们通过运行以下命令告诉pysemantic我们希望这样做 命令:
$ semantic add pysemantic_demo /path/to/demo_specs.yaml
我们都准备好了。要了解我们是如何做到的,请启动一个python解释器并键入 以下声明:
>>> from pysemantic import Project >>> demo = Project("pysemantic_demo") >>> iris = demo.load_dataset("iris")
喂!名为iris的python对象实际上是包含 虹膜数据集!嗯,到目前为止没有什么特别的。事实上,我们克隆了 安装了一个模块,写了两个看似不必要的文件,然后输入了三个 可以通过简单的 写作:
>>> iris = pandas.read_csv("/path/to/iris.csv")
然而,大多数数据集的性能都不如这个数据集。事实上他们可以 做个噩梦。pysemantic可能要复杂得多 当处理损坏的、编码错误的、丑陋的数据时 数据类型不一致。查看示例中的ipython笔记本,了解如何使用pysemantic 这样的数据。