从文件路径检索信息的一组工具。
path2insight的Python项目详细描述
路径2insight
==
…|特拉维斯图片:https://travis-ci.org/armell/path2insight.svg?branch=master
:目标:https://travis ci.org/armell/path2insight
…| readthedocs image::https://readthedocs.org/projects/path2insight/badge/
:target:https://readthedocs.org/projects/path2insight/badge/
path2insight(p2i)是一个模块化、可扩展的python模块,旨在为ana提供一套统一、全面的处理工具。分析文件路径。p2i支持静态文件系统分析,无需访问原始物理存储。基本上,以文本文件形式导出的存储内容的扫描就足以探索已保存的资源。也不需要访问文件内容,因为p2i模块导入文件路径
是字符串。
加载后,文件路径作为python对象存储在内存中,启用:
预处理、文本处理和文件夹和文件的描述性分析。
**预处理访问:**根据多个条件(例如
父文件夹,深度)对文件进行采样、排序和选择。
**文本处理:**将文件路径分块到令牌(完整路径、茎和名称)、
n-grams或完整路径,并使用多个可扩展的标记器。
此外,标记器还提供了选项n根据文件的结构和
内容聚合文件(为进一步分析准备路径,如实体识别
或分类任务)。
**描述性分析:*p2i实现令牌、茎和
扩展的计数器。它还支持统计特性,如对
扩展、茎和名称分布的x2测试。此外,文件夹深度分析功能有助于表示文件夹结构的复杂性。
-——————————————————————————————————————————————————————————————————————————————————————| pathlib os.path
+============================================+=========================================================================================+=============+====+==============+==============+
预处理pathlib+采样、排序、选择匹配、joinpath normcase、norm路径normcase|
+————————————————————————————————————————————————————————————————————————————描述性统计|计数器:stem,extension,name。斜纹织物标记器os.stat os.stat-————————————————————————————————————————————————————————————————————————————————————————————|阀杆,名称,父级,扩展驱动器,…|分开--———————————————————————————————————————————————————————————————————————————————————————————————————————————————————…|是的,用户,大小,日期时间,描述符…|
+——————————————————————————————————————————————————————————————————————————————————————————————Hon 2.7用户),快速
和可扩展路径处理工具包。它符合主要的数据分析python模块,如pandas、scikit learn、nltk和matplotlib,以扩展path2insight的分析可能性。
ght.walk`从您的文件系统收集数据。
…代码::python
>;>import path2insight
>;>from path2insight.datasets import load_ensembl
>;>filepaths=load_ensembl()
代码::python
>;>path2insight.depth\u计数(文件路径)
计数器({3:1,4:11,5:39424,6:5543,7:2733,8:3388})
代码::python
>;>;path2insight.token\u计数(文件路径)。最常见的(10)
[('txt',31977)、
('gene',13798)、
('ensembl',12727)、
('dm',12500)、
('homolor',7380)、
('fa',5890)、
('chrome',5011)、
('feature,4878),
('dna',4608),
('90',3404)
…代码::python
>;>path2insight.extension\u计数(文件路径)。最常见的(10)
[('.gz',44427)、
('.3094)、
('.bb',847)、
('.nsq',349)、
('.nin',349)、
('.nhr',349)、
('.tsv',336)、
('.psq',250)、
('.p在',250),
('.phr',250)]
…代码::python
>;>;path2insight。选择"re(filepath,level5="micro.')
[posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_refseq_90_micoch1。0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microtus_ochrogaster_merged_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microcebus_murinus_vep_90_mmur_2.0.tar.gz'),
posixfilepath('/volumes/release-90/rdf/microtus_ochrogaster/microtus_ochrogaster_xrefs.ttl.gz.graph'),
代码::python
>;>path2insight.distance_on_令牌(文件路径[0:10])
数组([[0.,2页。,1.41421356,3页。,3岁。],
[2.,0。,2.44948974,3.31662479,3.31662479],
[1.41421356,2.44948974,0.,3岁。,3岁。],
[3.,3.31662479,3页。,0。,1.41421356],
[3.,3.31662479,3页。,1.41421356,0。]])
PYPI上提供了安装和依赖项
=
到:
…代码::bash
pip安装path2insight
以升级path2insight使用
…代码::bash
pip install--upgrade path2insight
path2insight可用于python 2.7和python 3.4+。path2insight在很大程度上依赖于pathlib模块。此模块是Python3.4或更高版本的一部分。
对于Python2,使用backport pathlib2。因此,建议在python 3.4或更高版本中使用
path2insight。_ pathlib:https://docs.python.org/3/library/pathlib.html
。PATILB2:https://pypi.python.org/pypi/pathlib2/
path2insight的一些子模块依赖于其他python包(numpy,
pandas,sklearn,scipy,jellyfish)。您可以通过在"requirements full.txt"文件中安装包来获得完整的安装。代码::bash
pip install-r requirements full.txt
作者
==
…|特拉维斯图片:https://travis-ci.org/armell/path2insight.svg?branch=master
:目标:https://travis ci.org/armell/path2insight
…| readthedocs image::https://readthedocs.org/projects/path2insight/badge/
:target:https://readthedocs.org/projects/path2insight/badge/
path2insight(p2i)是一个模块化、可扩展的python模块,旨在为ana提供一套统一、全面的处理工具。分析文件路径。p2i支持静态文件系统分析,无需访问原始物理存储。基本上,以文本文件形式导出的存储内容的扫描就足以探索已保存的资源。也不需要访问文件内容,因为p2i模块导入文件路径
是字符串。
加载后,文件路径作为python对象存储在内存中,启用:
预处理、文本处理和文件夹和文件的描述性分析。
**预处理访问:**根据多个条件(例如
父文件夹,深度)对文件进行采样、排序和选择。
**文本处理:**将文件路径分块到令牌(完整路径、茎和名称)、
n-grams或完整路径,并使用多个可扩展的标记器。
此外,标记器还提供了选项n根据文件的结构和
内容聚合文件(为进一步分析准备路径,如实体识别
或分类任务)。
**描述性分析:*p2i实现令牌、茎和
扩展的计数器。它还支持统计特性,如对
扩展、茎和名称分布的x2测试。此外,文件夹深度分析功能有助于表示文件夹结构的复杂性。
-——————————————————————————————————————————————————————————————————————————————————————| pathlib os.path
+============================================+=========================================================================================+=============+====+==============+==============+
预处理pathlib+采样、排序、选择匹配、joinpath normcase、norm路径normcase|
+————————————————————————————————————————————————————————————————————————————描述性统计|计数器:stem,extension,name。斜纹织物标记器os.stat os.stat-————————————————————————————————————————————————————————————————————————————————————————————|阀杆,名称,父级,扩展驱动器,…|分开--———————————————————————————————————————————————————————————————————————————————————————————————————————————————————…|是的,用户,大小,日期时间,描述符…|
+——————————————————————————————————————————————————————————————————————————————————————————————Hon 2.7用户),快速
和可扩展路径处理工具包。它符合主要的数据分析python模块,如pandas、scikit learn、nltk和matplotlib,以扩展path2insight的分析可能性。
ght.walk`从您的文件系统收集数据。
…代码::python
>;>import path2insight
>;>from path2insight.datasets import load_ensembl
>;>filepaths=load_ensembl()
代码::python
>;>path2insight.depth\u计数(文件路径)
计数器({3:1,4:11,5:39424,6:5543,7:2733,8:3388})
代码::python
>;>;path2insight.token\u计数(文件路径)。最常见的(10)
[('txt',31977)、
('gene',13798)、
('ensembl',12727)、
('dm',12500)、
('homolor',7380)、
('fa',5890)、
('chrome',5011)、
('feature,4878),
('dna',4608),
('90',3404)
…代码::python
>;>path2insight.extension\u计数(文件路径)。最常见的(10)
[('.gz',44427)、
('.3094)、
('.bb',847)、
('.nsq',349)、
('.nin',349)、
('.nhr',349)、
('.tsv',336)、
('.psq',250)、
('.p在',250),
('.phr',250)]
…代码::python
>;>;path2insight。选择"re(filepath,level5="micro.')
[posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_refseq_90_micoch1。0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microtus_ochrogaster_merged_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microcebus_murinus_vep_90_mmur_2.0.tar.gz'),
posixfilepath('/volumes/release-90/rdf/microtus_ochrogaster/microtus_ochrogaster_xrefs.ttl.gz.graph'),
代码::python
>;>path2insight.distance_on_令牌(文件路径[0:10])
数组([[0.,2页。,1.41421356,3页。,3岁。],
[2.,0。,2.44948974,3.31662479,3.31662479],
[1.41421356,2.44948974,0.,3岁。,3岁。],
[3.,3.31662479,3页。,0。,1.41421356],
[3.,3.31662479,3页。,1.41421356,0。]])
PYPI上提供了安装和依赖项
=
…代码::bash
pip安装path2insight
以升级path2insight使用
…代码::bash
pip install--upgrade path2insight
path2insight可用于python 2.7和python 3.4+。path2insight在很大程度上依赖于pathlib模块。此模块是Python3.4或更高版本的一部分。
对于Python2,使用backport pathlib2。因此,建议在python 3.4或更高版本中使用
path2insight。_ pathlib:https://docs.python.org/3/library/pathlib.html
。PATILB2:https://pypi.python.org/pypi/pathlib2/
path2insight的一些子模块依赖于其他python包(numpy,
pandas,sklearn,scipy,jellyfish)。您可以通过在"requirements full.txt"文件中安装包来获得完整的安装。代码::bash
pip install-r requirements full.txt
作者