Python中的开源数据挖掘/文本分析工具
我有一个数据库,里面存满了各种产品的评论。我的任务是进行一些计算,然后“创建”另一个“数据库/xml导出”,里面是汇总的数据。我在考虑用Python写一些命令行程序来完成这个工作。不过我知道之前有人做过类似的事情,而且应该有一些开源的Python解决方案,可能能提供比我想象中更有趣的“汇总数据”。
问题是,我对这个领域了解不多,除了基本的命令行数据处理,我也不知道该用什么术语去搜索这些东西。我并不想要一些科学的或可视化的工具(虽然如果工具有这些功能我也不介意),我只是想找一些简单的东西开始,然后逐渐看到或开发出我需要的东西。
我唯一的要求是,最终的汇总数据要么存放在数据库里,要么导出为XML文件,不要用那些专有的东西。因为我需要处理的数据量比较大,涉及到4台机器,所以这比我用Python脚本处理要复杂一些。
请问我应该从哪里开始我的研究呢?
谢谢。