Python中的开源数据挖掘/文本分析工具

2 投票
2 回答
5069 浏览
提问于 2025-04-15 14:34

我有一个数据库,里面存满了各种产品的评论。我的任务是进行一些计算,然后“创建”另一个“数据库/xml导出”,里面是汇总的数据。我在考虑用Python写一些命令行程序来完成这个工作。不过我知道之前有人做过类似的事情,而且应该有一些开源的Python解决方案,可能能提供比我想象中更有趣的“汇总数据”。

问题是,我对这个领域了解不多,除了基本的命令行数据处理,我也不知道该用什么术语去搜索这些东西。我并不想要一些科学的或可视化的工具(虽然如果工具有这些功能我也不介意),我只是想找一些简单的东西开始,然后逐渐看到或开发出我需要的东西。

我唯一的要求是,最终的汇总数据要么存放在数据库里,要么导出为XML文件,不要用那些专有的东西。因为我需要处理的数据量比较大,涉及到4台机器,所以这比我用Python脚本处理要复杂一些。

请问我应该从哪里开始我的研究呢?

谢谢。

2 个回答

1

你想做什么样的分析呢?

如果你是在分析文本,可以看看这个叫做自然语言工具包(NLTK)的东西。

如果你想对数据进行索引和搜索,可以了解一下whoosh这个搜索引擎。

请提供更多细节,告诉我你想进行什么样的分析。

1

看起来你在寻找一个数据集成的解决方案。
一个建议是使用开源的Kettle项目,它是Pentaho套件的一部分。
如果你使用Python,快速搜索一下会发现PyDISnapLogic

撰写回答