如何开始大数据分析

2条回答

网友

1楼 · 编辑于 2024-05-16 20:31:18

Using the Python Disco project for example.

很好。玩这个。

Using the RHIPE package and finding toy datasets and problem areas.

很好。也玩这个。

不要为寻找“大”数据集而操心。即使是很小的数据集也会出现非常有趣的问题。事实上，任何数据集都是一个起点。

我曾经建立了一个小的星图来分析一个组织6000万美元的预算。源数据在电子表格中，基本上无法理解。所以我将它卸载到一个星型模式中，并用Python编写了几个分析程序来创建相关数字的简化报告。

Finding the right information to allow me to decide if I need to move to NoSQL from RDBMS type databases

这很容易。

首先，拿一本关于数据仓库的书（Ralph Kimball的数据仓库工具包）为例。

其次，仔细研究“星型模式”——特别是Kimball解释的所有变体和特殊情况（深入）

第三，实现如下：SQL用于更新和事务。

当进行“分析”处理（大或小）时，几乎没有任何类型的更新。SQL（和相关的规范化）不再重要了。

Kimball（还有其他人）的观点是，大多数数据仓库不在SQL中，而是在简单的平面文件中。数据集市（用于即席、切片和骰子分析）可能位于关系数据库中，以便使用SQL进行简单、灵活的处理。

所以这个“决定”是微不足道的。如果它是事务性的（“OLTP”），那么它必须在关系数据库或OO DB中。如果它是分析性的（“OLAP”），那么除了切片和骰子分析之外，它不需要SQL；即使如此，根据需要从官方文件加载DB。

网友

2楼 · 编辑于 2024-05-16 20:31:18

您可以考虑的一件事是DMelt（http://jwork.org/dmelt/）数据分析程序。一个值得注意的特性是它有数百个使用Python语言的示例，以及一些书籍。我使用它的原因是它运行在我的Windows 10上（因为它使用Java VM），另外它有非常好的2D/3D图形，可以导出为矢量图形格式。

相关问题更多 >

编程相关推荐

热门问题

热门文章