金融新闻中的机器学习
我有一份来自不同金融网站的新闻文章,比如彭博社、市场观察、CNN等。我想根据这些文章的金融相关性来分类,以便了解是否涉及任何财务困境或危机。
我用Python编写了一个程序,利用NLTK这个工具来给每篇文章打分,分数是根据它们的金融相关性来定的。
目前,我使用了一个关键词列表,比如:
- 市场
- 金融
- 损失
- 贷款,等等。
我会检查这些关键词中有多少出现在新闻文章里,然后给每个关键词打分,最后把所有的分数加起来,得到一篇文章的总分。
同样,我还有一个金融短语的列表:
- 未能与债权人达成协议
- 申请破产
- 申请第11章,等等。
我会把这两个列表的分数加在一起,然后给文章一个整体分数,这个分数就能反映文章的相关性。
我想在这个过程中加入机器学习,并希望用上面的方法已经分类好的新闻文章作为训练数据。
请帮我找出最合适的算法来实现这个目标。