当我尝试使用read some web page时,页面源代码如下所示:
<p/><table border="1" align="center" cellpadding="10"><tbody><tr><td><a href="/cgi-bin/query/C?c101:./temp/~c1011jI5AQ" title="Displays without navigation or highlighting">Printer Friendly</a>[<a href="/home/billdwnloadhelp.html">Help</a>]</td>
但是当我使用Python的urllib2、urllib或请求来读取此网页时,结果如下所示:
<p/><a href="/[<a href="%s">Help</a>]</td>`/C?query:c101" Printer Friendly</a><p/>
那么,为什么我不能阅读所有的信息而丢失了非常重要的部分呢???你知道吗
我试着用Java来阅读,也是同样的情况。我尝试使用不同的操作系统,比如Mac,Linux或者Windows,结果也是一样的。那我怎么解决这个问题呢?你知道吗
我不确定是否正确理解:第二个示例是Python或Java所得到的。第一个呢?它是通过浏览器查看“源代码”获得的吗?在这种情况下,有三种可能的情况:
作为一个测试,您可以使用
curl
下载页面并进行一些比较它将非常适合该任务,因为在许多选项中,您有机会更改提供给服务器的用户代理标识,因此,假装是IE或Firefox或任何您喜欢的:相关问题 更多 >
编程相关推荐