Appengine应用与Google爬虫

1 投票
2 回答
1230 浏览
提问于 2025-04-15 21:11

我建立了一个名为 cricket.hover.in 的应用程序网页。这个网页大约有 15,000 个链接,但即使我上线很久了,谷歌上也没有任何页面被收录。

我在我的主网站 hover.in 上放的任何基本链接都能在几分钟内被收录。但是我很早就把同样的链接放在主网站的首页上,但没有任何效果。

有没有人能分析一下,cricket.hover.in 是否存在什么问题,或者说谷歌的爬虫在使用 Google App Engine 时遇到了什么麻烦?

其实我用谷歌的网络管理员工具里的实验室应用测试了这个网址,返回结果很好,HTML 也很清晰。

但是当我在以下网址测试同样的 (cricket.hover.in) 时,结果却显示出不同的失败情况:

www.dnsqueries.com/en/googlebot_simulator.php

www.smart-it-consulting.com/internet/google/googlebot-spoofer/

不过如果我在上述网址测试一些我的 PHP 或 WordPress 链接,结果都是好的。


抱歉,我在问题上犯了个错误,请原谅我造成的误导。正确的域名是 cricket.trak.in/,它是从基础网址 trak.in 引用的。我在思考问题时犯了个错误,经过长时间的调查还是没找到解决方案。请检查这个域名。

我在三天前提交了网站地图,总共提交了大约 22,000 个链接,但到现在为止,收录的数量仍然是 0。

其次,cricket.trak.in 本身并没有返回 15,000 个链接,我的意思是如果整个网站被爬虫抓取,应该会返回大约 15,000 个链接。

2 个回答

1

你的网站有没有正确的网站地图,并且有没有把它们提交给谷歌和其他搜索引擎?我无法检查,因为http://cricket.hover.in这个链接显示404错误,这可能是域名解析的问题。你在浏览器里输入这个网址时会发生什么呢?

2

从这个网络空间的角度来看,根本没有叫 cricket.hover.in 的域名。

$ dig cricket.hover.in.
; <<>> DiG 9.6.1-P2 <<>> cricket.hover.in.
;; ->>HEADER<<- opcode: QUERY, status: NXDOMAIN, id: 30665

我还猜测,如果一个网址返回了15000个 href 链接,很多搜索引擎的爬虫会觉得这完全是无用的垃圾信息,甚至会选择忽略它,即使它们能够访问到这个网址。

撰写回答