学习机器学习的第一个好的实现是什么?

2024-05-15 10:50:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我发现学习新主题最好是通过简单的代码实现来获得想法。这就是我学习遗传算法和遗传编程的方法。为了开始机器学习,有什么好的入门程序可以编写?

最好,让任何参考资源都可以在线访问,这样社区就可以受益


Tags: 方法代码程序机器主题编程资源社区
3条回答

决策树。它经常用于分类任务,并且有很多变体。汤姆·米切尔的书是一本很好的参考书。

我认为你可以为垃圾邮件过滤写一个“天真的Bayes”分类器。 你可以从这本书中得到很多信息。

http://nlp.stanford.edu/IR-book/information-retrieval-book.html

你将用什么语言发展?如果你是灵活的,我推荐Matlab、python和R作为很好的候选者。这些是用于开发和评估算法的一些更常见的语言。它们有助于快速算法开发和评估、数据操作和可视化。大多数流行的ML算法也可用作库(带有源代码)。

我将从R2中的基本分类和/或聚类练习开始。它更容易可视化,而且通常足以探索ML中的问题,例如风险、类不平衡、嘈杂的标签、在线与离线培训等。从日常生活中创建一个数据集,或者创建一个您感兴趣的问题。或者使用经典的方法,比如Iris数据集,这样你就可以将你的进展与已发表的文献进行比较。您可以在以下位置找到Iris数据集:

它的一个优点是有一个类“setosa”,很容易与其他类线性分离。

一旦您选择了几个有趣的数据集,就从实现一些标准分类器并检查它们的性能开始。这是一个很好的分类列表:

  • k-最近邻
  • 线性判别分析
  • 决策树(如C4.5)
  • 支持向量机(例如,通过LibSVM)
  • 助推(用树桩)
  • 朴素贝叶斯分类器

使用Iris数据集和我提到的一种语言,您可以很容易地快速使用任何分类器(根据您的速度,从几分钟到几小时)进行小型研究。

编辑:你可以谷歌“虹膜数据分类”找到很多例子。下面是Mathworks使用Iris数据集的分类演示文档:

http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/classdemo.html

相关问题 更多 >