擅长:python、mysql、java
<blockquote>
<p>Using the Python Disco project for example.</p>
</blockquote>
<p>很好。玩这个。</p>
<blockquote>
<p>Using the RHIPE package and finding toy datasets and problem areas.</p>
</blockquote>
<p>很好。也玩这个。</p>
<p>不要为寻找“大”数据集而操心。即使是很小的数据集也会出现非常有趣的问题。事实上,任何数据集都是一个起点。</p>
<p>我曾经建立了一个小的星图来分析一个组织6000万美元的预算。源数据在电子表格中,基本上无法理解。所以我将它卸载到一个星型模式中,并用Python编写了几个分析程序来创建相关数字的简化报告。</p>
<blockquote>
<p>Finding the right information to allow me to decide if I need to move to NoSQL from RDBMS type databases</p>
</blockquote>
<p>这很容易。</p>
<p>首先,拿一本关于数据仓库的书(Ralph Kimball的数据仓库工具包)为例。</p>
<p>其次,仔细研究“星型模式”——特别是Kimball解释的所有变体和特殊情况(深入)</p>
<p>第三,实现如下:SQL用于更新和事务。</p>
<p>当进行“分析”处理(大或小)时,几乎没有任何类型的更新。SQL(和相关的规范化)不再重要了。</p>
<p>Kimball(还有其他人)的观点是,大多数数据仓库不在SQL中,而是在简单的平面文件中。数据集市(用于即席、切片和骰子分析)可能位于关系数据库中,以便使用SQL进行简单、灵活的处理。</p>
<p>所以这个“决定”是微不足道的。如果它是事务性的(“OLTP”),那么它必须在关系数据库或OO DB中。如果它是分析性的(“OLAP”),那么除了切片和骰子分析之外,它不需要SQL;即使如此,根据需要从官方文件加载DB。</p>