表格数据格式错误的自动检测

forma的Python项目详细描述


CI

Forma公司

Forma是一个用python编写的开放源代码库,它支持对表格数据进行自动的、与域无关的格式错误检测。这个图书馆是研究项目BigDataStack的副产品。在

安装

运行pip install forma在您的环境中安装库。在

如何使用

我们将使用流行的movielens数据集。在

# local# load the datacol_names=['user_id','movie_id','rating','timestamp']ratings_df=pd.read_csv('../data/ratings.dat',delimiter='::',names=col_names,engine='python')
^{pr2}$

让我们介绍一些随机错误。在

# localdirty_df=ratings_df.astype('str').copy()dirty_df.iloc[3]['timestamp']='9783000275'dirty_df.iloc[2]['movie_id']='914.'dirty_df.iloc[4]['rating']='10'

初始化探测器,安装并检测。返回的结果是一个pandas数据帧,其中有一个额外的列p,它记录在行中出现格式错误的概率。我们看到元组中引入随机人工错误的概率增加了。在

# local# initialize detectordetector=FormatDetector()# fit detectordetector.fit(dirty_df,generator=PatternGenerator(),n=3)# detect error probabilityassessed_df=detector.detect(reduction=np.mean)# visualize resultsassessed_df.head()
100%|██████████| 4/4 [02:58<00:00, 44.58s/it]
100%|██████████| 1000209/1000209 [07:28<00:00, 2230.59it/s]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空间计数器在Java中不起作用   json在java中表示XPath列表的最佳方式   java报警服务接收器安卓   java注入bean在自定义的all存储库中   java从迁移到Spring MVC 4+Hibernate5   JavaEclipseIDE透视图被缓存,更改没有任何影响   java Hibernate:在将对象插入Derby嵌入式数据库时引发SQLGrammerException   适用于mp4或mp3文件的java Exoplayer自动流媒体质量   安卓如何在java的静态方法中使用这个关键字?   SSL服务器端的spring主机名验证+Tomcat和Java 8   java Eclipse强制刷新IDs   java有可能返回Mono。只是从GetMapping(“/”)处理程序中获取(“索引”)吗?   arraylist当我用java编程时,我遇到了这个错误,有人能告诉我到底出了什么问题吗?   java如何更改Apache CXF web服务中的日期时间格式   Jfoenix ChipView中的java多线程   java任务在Spark上不可序列化