如何在Python中验证两个数据集?

2024-05-15 05:38:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我是在HireVu平台上接受采访时得到这个问题的。我写不出正确的代码。你能帮帮我吗

在Amazon编程挑战描述中引发:当数据导入到任何软件环境中时,都有引入错误或无效数据的风险。进行任何数据分析之前的一个基本步骤是首先验证要使用的数据。这样可以节省时间,避免以后出现问题

想象一下,一个数据科学团队正在调查亚马逊热带森林的森林火灾。它们有两个CSV格式的数据集:

第一个数据集代表巴西不同州按月份和年份收集的森林火灾统计数据。第二个数据集汇总了全国每年的火灾总数

编写一个程序,使用第二个数据集的摘要数据验证第一个数据集

输入:两个CSV格式的数据集,由一个空行分隔

第一个数据集有以下列:年-森林火灾发生的年份州-巴西州月-森林火灾发生的月份数-当年、州和月份报告的火灾数

第二个数据集有以下列:年份-发生森林火灾的年份数-当年报告的火灾总数

例如:年、州、月、数字2000,里约热内卢,诺文布罗,2002年11月4日,里约热内卢,里约热内卢,2000年9月9日,里约热内卢,里约热内卢,2001年25日,2001年12月11日,里约热内卢,帕拉伊巴

输出:如果第一个数据集似乎有效,则打印True。 否则,打印错误

测试1测试输入下载 测试1输入

年、州、月、数 2000年,里约热内卢,11月18日 2002年,伯南布哥,费韦雷罗,64岁 2001年,马托格罗索,马约,112 2003年,里约热内卢罗莱马,547 2002年,马兰豪,朱略,4 2003年,里约热内卢,马罗,9 2000年,奥图布罗罗莱马,25岁 2001年,帕拉伊巴,里约热内卢,11

年份、编号 2002,68 2000,43 2003,556 2001123

预期输出下载 测试1 输入真值

测试2测试 输入下载测试2 输入 年、州、月、数 2008年,马兰豪,阿戈斯托,713 2009年,Tocantins,Maio,91 2008年,伯南布哥,马罗,32岁 2007年11月11日,里约热内卢,帕拉伊巴 2007年4月4日,塞滕布罗,朴 2008年,圣卡塔里纳,德赞布罗,29 2009年,联邦行政区,费韦雷罗,0 2007年,塞尔吉普,诺文布罗,7 2009年,骏豪戈亚斯,179 2008年,里约,费雷罗,25岁

年份,编号2009270 2008,713 2007,22

预期输出下载测试2 输入错误测试3测试 输入下载测试3 输入 年、州、月、数 2014年,马托格罗索,德赞布罗,84岁 2011年,帕拉伊巴,阿戈斯托,12 2015年,阿拉戈斯,奥图布罗,40岁 2015年,巴伊亚,阿戈斯托,829 2014年,朴,马约,138 2012年,帕拉伊巴,马罗,4 2013年,亚马孙,奥图布罗,1 2013年,帕拉伊巴,马罗,18岁 2011年,塞尔吉佩,马罗,47岁 2012年,62岁,德赞布罗,帕拉伊巴 2011年6月6日,Junho Roraima 2011年,78岁,德赞布罗,帕拉伊巴 2011年11月2日,塞阿拉 2012年,阿拉戈斯,费韦雷罗,41岁 2013年,马托格罗索,塞滕布罗,6 2010年,圣卡塔里纳,阿布里尔,19岁 2014年,托坎廷斯,阿布里尔,187 2014年,罗莱马,马罗,494 2013年,巴伊亚,诺文布罗,288 2011年,圣卡塔里纳,马里奥,16岁 2014年,阿马帕,塞滕布洛,137 2010年,里约热内卢联邦区,2 2014年,Espirito Santo,Dezembro,28岁 2013年,奥图布罗圣卡塔里纳,107 2010年,米纳斯吉拉斯,马里奥,179 2010年,里约热内卢,奥图布罗,35岁 2014年,圣埃斯皮里托,Junho,9 2010年,塞尔吉普,阿戈斯托,0 2015年,联邦区,Julho,15 2012年7月3日,阿马帕

年份、编号 2010,235 2011,161 2012,110 2013,420 2014,1077 2015884

预期输出下载测试3 输入真实测试4测试 输入下载测试4 输入

年、州、月、数 2007年,联邦行政区,Julho,25 2006年,帕拉伊巴,马里奥,0 2005年,顺河帕拉伊巴,114 2007年,5月5日,塞滕布罗,米纳斯吉拉斯 2006年,里约热内卢塞尔吉普,36 2006年,塞尔吉普,阿戈斯托,0 2006年,塞阿拉,Junho,0 2005年,Goias,Março,36 2006年5月5日,马兰豪 2007年,伯南布哥,阿戈斯托,20岁 2005年,奥图布罗帕拉伊巴,155 2005年,马托格罗索,塞滕布罗,21 2007年,Amapa,Março,0 2007年,马托格罗索,里约热内卢,19 2005年,里约热内卢,奥图布罗,168

年份、编号 2005,494 2006,41 2007,69 2008155


Tags: csv数据格式报告错误森林编号行政区

热门问题