数据挖掘中的数据映射算法
我需要从一些网页上抓取内容,并提取出有用的信息。我打算选择一些特定的关键词,然后把这些关键词之间有关系的数据整理出来。但我不知道该怎么做。有没有人能给我推荐一些算法来实现这个呢?
举个例子,我需要下载一些关于苹果的网页,然后把与苹果相关的数据整理到一起,存储到数据库里,这样如果有人需要关于苹果的具体信息,我就能快速而准确地提供给他们。
另外,如果能推荐一些有用的库就更好了。我打算用Python来做这件事。
2 个回答
1
你可以尝试一些基于“词频-逆文档频率”的算法,简称TF-IDF。这个算法可以帮助你分析文本中的重要性。在Java中,我推荐使用Solr这个工具……其实你也可以用Solr,然后用Python来访问它,具体可以参考这里。
1
你可以看看 NLTK、Pattern 或者 Orange 这些模块。
作为入门,Toby Segaran 的书 "Programming collective intelligence: building smart web 2. 0 applications" 是一本很不错的读物。