我应该学习哪一组Python库用于AI和数据挖掘?

5 投票
2 回答
1840 浏览
提问于 2025-04-16 19:09

我正在学习Python和Django。我需要做很多关于数据解析、统计、人工智能和数据挖掘的工作。市面上有很多库可供使用,所以我想知道我应该学习哪一套。目前我心里有以下这套库。

  • 解析:Beautiful Soup
  • 搜索引擎:Whoosh(这个能爬取和索引网站吗?)
  • 人工智能:PyBrain
  • 数据挖掘:Orange(我对这个不太确定,还有其他推荐吗?)

所以我想知道在这些领域里,还有什么其他的东西是我需要学习的。或者有没有人试过的库。基本上,我想要的是可以在Django里面使用的库,不想要不同的框架。

2 个回答

2

我觉得你的要求有点模糊,不过你可以看看这个网站:scikits.learn

1

除了@aix提到的scikit库,你可能还想看看以下这些库:

  • mlpy,这是一个机器学习库,主要用于数据预处理、聚类、预测分类、回归和特征选择。
  • PyML,又一个机器学习库。
  • pandas(适合Python的交叉数据、时间序列和统计分析),这是一个基于NumPy的快速数据结构,专门优化用于面板数据、时间序列和交叉数据分析,特别适合经济计量学的应用。
  • scikits.statsmodels,实现了一些常见的统计模型(如OLS/GLS、GLM、M估计等)。我非常喜欢这个包,它的语法很简洁,感觉就像没有离开R语言一样。

我真的很推荐你去了解一下orange的功能,它是一个功能齐全的数据挖掘应用程序,但你也可以从外部脚本调用它,具体可以参考一下开始使用Orange的教程,了解一下它的用法。

撰写回答