从文件路径检索信息的一组工具。

path2insight的Python项目详细描述


路径2insight
==


…|特拉维斯图片:https://travis-ci.org/armell/path2insight.svg?branch=master
:目标:https://travis ci.org/armell/path2insight
…| readthedocs image::https://readthedocs.org/projects/path2insight/badge/
:target:https://readthedocs.org/projects/path2insight/badge/

path2insight(p2i)是一个模块化、可扩展的python模块,旨在为ana提供一套统一、全面的处理工具。分析文件路径。p2i支持静态文件系统分析,无需访问原始物理存储。基本上,以文本文件形式导出的存储内容的扫描就足以探索已保存的资源。也不需要访问文件内容,因为p2i模块导入文件路径
是字符串。


加载后,文件路径作为python对象存储在内存中,启用:
预处理、文本处理和文件夹和文件的描述性分析。

**预处理访问:**根据多个条件(例如
父文件夹,深度)对文件进行采样、排序和选择。

**文本处理:**将文件路径分块到令牌(完整路径、茎和名称)、
n-grams或完整路径,并使用多个可扩展的标记器。
此外,标记器还提供了选项n根据文件的结构和
内容聚合文件(为进一步分析准备路径,如实体识别
或分类任务)。

**描述性分析:*p2i实现令牌、茎和
扩展的计数器。它还支持统计特性,如对
扩展、茎和名称分布的x2测试。此外,文件夹深度分析功能有助于表示文件夹结构的复杂性。


-——————————————————————————————————————————————————————————————————————————————————————| pathlib os.path
+============================================+=========================================================================================+=============+====+==============+==============+
预处理pathlib+采样、排序、选择匹配、joinpath normcase、norm路径normcase|
+————————————————————————————————————————————————————————————————————————————描述性统计|计数器:stem,extension,name。斜纹织物标记器os.stat os.stat-————————————————————————————————————————————————————————————————————————————————————————————|阀杆,名称,父级,扩展驱动器,…|分开--———————————————————————————————————————————————————————————————————————————————————————————————————————————————————…|是的,用户,大小,日期时间,描述符…|
+——————————————————————————————————————————————————————————————————————————————————————————————Hon 2.7用户),快速
和可扩展路径处理工具包。它符合主要的数据分析python模块,如pandas、scikit learn、nltk和matplotlib,以扩展path2insight的分析可能性。

ght.walk`从您的文件系统收集数据。

…代码::python

>;>import path2insight
>;>from path2insight.datasets import load_ensembl

>;>filepaths=load_ensembl()

代码::python

>;>path2insight.depth\u计数(文件路径)
计数器({3:1,4:11,5:39424,6:5543,7:2733,8:3388})

代码::python

>;>;path2insight.token\u计数(文件路径)。最常见的(10)
[('txt',31977)、
('gene',13798)、
('ensembl',12727)、
('dm',12500)、
('homolor',7380)、
('fa',5890)、
('chrome',5011)、
('feature,4878),
('dna',4608),
('90',3404)


…代码::python

>;>path2insight.extension\u计数(文件路径)。最常见的(10)
[('.gz',44427)、
('.3094)、
('.bb',847)、
('.nsq',349)、
('.nin',349)、
('.nhr',349)、
('.tsv',336)、
('.psq',250)、
('.p在',250),
('.phr',250)]

…代码::python

>;>;path2insight。选择"re(filepath,level5="micro.')
[posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variation/vep/microtus_ochrogaster_refseq_90_micoch1。0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microtus_ochrogaster_merged_vep_90_micoch1.0.tar.gz'),
posixfilepath('/volumes/release-90/variance/vep/microcebus_murinus_vep_90_mmur_2.0.tar.gz'),
posixfilepath('/volumes/release-90/rdf/microtus_ochrogaster/microtus_ochrogaster_xrefs.ttl.gz.graph'),



代码::python

>;>path2insight.distance_on_令牌(文件路径[0:10])
数组([[0.,2页。,1.41421356,3页。,3岁。],
[2.,0。,2.44948974,3.31662479,3.31662479],
[1.41421356,2.44948974,0.,3岁。,3岁。],
[3.,3.31662479,3页。,0。,1.41421356],
[3.,3.31662479,3页。,1.41421356,0。]])



PYPI上提供了安装和依赖项
=


到:

…代码::bash

pip安装path2insight


以升级path2insight使用

…代码::bash

pip install--upgrade path2insight

path2insight可用于python 2.7和python 3.4+。path2insight在很大程度上依赖于pathlib模块。此模块是Python3.4或更高版本的一部分。
对于Python2,使用backport pathlib2。因此,建议在python 3.4或更高版本中使用
path2insight。_ pathlib:https://docs.python.org/3/library/pathlib.html
。PATILB2:https://pypi.python.org/pypi/pathlib2/


path2insight的一些子模块依赖于其他python包(numpy,
pandas,sklearn,scipy,jellyfish)。您可以通过在"requirements full.txt"文件中安装包来获得完整的安装。代码::bash

pip install-r requirements full.txt





作者

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
从FXML转换为JAVA时,不会加载javafx映像   泛型Java模板调用运行时推断   javascript为什么我的活动没有响应我在样式文件中所做的更改?   如何在HttpClient(java、apache)中自动重定向   java CSV到H2字符编码不匹配   在Java中使用BorderLayout按比例调整用户界面大小   Java中的重定向异常   java RecyclerView搜索过滤器仅过滤一个值   java标准api multiselect与count和distinct不起作用   java为什么我在Solr上做的每一个查询都会占用我10s MB的堆内存?   java如何使用方法解决:锁定帐户三次后?   java如何实现睡眠以显示图像的幻灯片   在Java中,按对象参数对映射<对象,列表<对象>>进行排序   java无法从密钥库读取密钥   java试图将水平recycleview嵌套到垂直recycleview中   认识C++对Web应用开发的重要性   使用共享对象实例化多个Runnable的java含义?   javabeans何时使用JavaBean?