如何开始大数据分析

2024-04-29 15:18:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我是R的长期用户,最近开始使用Python。使用传统的RDBMS系统进行数据仓库存储,使用R/Python进行数字处理,我觉得现在有必要着手进行大数据分析。

我想知道如何开始大数据处理。 -如何从Map/Reduce和Hadoop的使用开始简单

  • 我如何利用我在R和Python中的技能开始大数据分析。例如使用Python Disco项目。
  • 使用RHIPE包并查找玩具数据集和问题区域。
  • 找到合适的信息,让我决定是否需要从RDBMS类型数据库移动到NoSQL

总之,我想知道如何从小做起,逐步积累我在大数据分析方面的技能和诀窍。

谢谢你的建议和建议。 我为这个查询的一般性表示歉意,但我希望获得有关这个主题的更多视角。

  • 严厉的

Tags: 项目用户hadoop利用mapreduce系统技能
2条回答

Using the Python Disco project for example.

很好。玩这个。

Using the RHIPE package and finding toy datasets and problem areas.

很好。也玩这个。

不要为寻找“大”数据集而操心。即使是很小的数据集也会出现非常有趣的问题。事实上,任何数据集都是一个起点。

我曾经建立了一个小的星图来分析一个组织6000万美元的预算。源数据在电子表格中,基本上无法理解。所以我将它卸载到一个星型模式中,并用Python编写了几个分析程序来创建相关数字的简化报告。

Finding the right information to allow me to decide if I need to move to NoSQL from RDBMS type databases

这很容易。

首先,拿一本关于数据仓库的书(Ralph Kimball的数据仓库工具包)为例。

其次,仔细研究“星型模式”——特别是Kimball解释的所有变体和特殊情况(深入)

第三,实现如下:SQL用于更新和事务。

当进行“分析”处理(大或小)时,几乎没有任何类型的更新。SQL(和相关的规范化)不再重要了。

Kimball(还有其他人)的观点是,大多数数据仓库不在SQL中,而是在简单的平面文件中。数据集市(用于即席、切片和骰子分析)可能位于关系数据库中,以便使用SQL进行简单、灵活的处理。

所以这个“决定”是微不足道的。如果它是事务性的(“OLTP”),那么它必须在关系数据库或OO DB中。如果它是分析性的(“OLAP”),那么除了切片和骰子分析之外,它不需要SQL;即使如此,根据需要从官方文件加载DB。

您可以考虑的一件事是DMelt(http://jwork.org/dmelt/)数据分析程序。一个值得注意的特性是它有数百个使用Python语言的示例,以及一些书籍。我使用它的原因是它运行在我的Windows 10上(因为它使用Java VM),另外它有非常好的2D/3D图形,可以导出为矢量图形格式。

相关问题 更多 >