有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java如何实现社交媒体/网站监控服务?

我想实施一些服务,我的客户可以用它来找到他们的公司 a、 博客、论坛 b、 facebook,twitter c、 查看网站

a.博客、论坛 这只能由爬虫完成,对吗?寻找机器人的爬虫。txt在论坛/博客上,而不是随意阅读论坛/博客的内容(当然还有链接)。 但是从哪里开始呢?我可以使用一组网站来开始爬网吗?我必须预先定义它们吗?或者我可以先使用其他搜索引擎吗?例如,在谷歌搜索该公司,然后抓取SERP?合法的

b.facebook、twitter 他们有API,所以我认为这应该不是问题

c.审查网站 我查看了一些评论网站的TOS,他们写道,不允许使用自动软件对他们的网站进行爬网。另一方面,与我相关的网站在它们的机器人中也不被禁止。txt。这里什么重要

欢迎提供任何其他提示

提前感谢:-)


共 (1) 个答案

  1. # 1 楼答案

    老实说,最简单的方法就是从搜索引擎开始。它们都有用于进行自动搜索的API,因此,这可能会让你在获得客户产品或品牌的链接/提及时获得最高回报

    这不会处理身份验证背后的事情,当然只能处理公共事务。但这会给你一个很好的起点。从那以后,你可以(如果你愿意的话)使用API或自定义编写的机器人程序,这些程序会在网站上获得认证,但老实说,我认为,在这一点上,你误解了核心问题

    核心问题是“我们在哪里被提及?”还是核心问题真的。。。“哪些网站让流量流向我们?”在大多数情况下,这是后者,在这种情况下,你可以忽略我之前所说的一切,只需在你的客户网站上使用谷歌分析或类似软件来确定流量来自哪里

    编辑 好吧,如果是我们提到的地方,我仍然会启动搜索引擎。谷歌的api非常简单,它有一个基于SOAP的api,如果你愿意的话,你可以把它作为网络参考example

    回复:查看网站。如果网站的TOS说你不能使用自动机器人,那么最好不要使用自动机器人。机器人。txt没有法律约束力(这是一种好邻居的东西),所以我不会用没有排除的情况来获得许可。一些评论网站(更现代的网站)可能不允许自动抓取他们的网站,但他们可能仍然发布RSS提要或Atom提要,或者有一些其他API可以连接,这是值得检查的