擅长:python、mysql、java
<p>如果您在与页面交互时查看浏览器的开发工具,您将看到将鼠标悬停在其中一个图像/文本元素上会请求加载该元素的文本。因此,您必须为每个文本发出一个请求才能获得所有这些值。url都是这样的:<a href="http://reference.wolfram.com/language/ref/Files/BarChart.en/i_5.txt" rel="nofollow noreferrer">http://reference.wolfram.com/language/ref/Files/BarChart.en/i_5.txt</a></p>
<p>因此,首先,您应该找到一种生成所有这些请求的方法。看起来它们都是奇数(<code>i_1.txt</code>,<code>i_3.txt</code>,等等),它们与<code>div</code>的id相对应</p>
<p>但是这些并不能给你很好看的文本,它有很多标记,文本被转义了:</p>
<pre><code><pre name='i_5_in' id='i_5_in' class='IFT'>
BarChart[{{1, 2, 3}, {1, 3, 2}, {5, 2}},
ChartLabels -&gt; {&quot;a&quot;, &quot;b&quot;, &quot;c&quot;}]
</pre><div class='IFU'>
<a name='408182431'></a>http://wolfram.com/xid/0cq0nbvj-g1a1u5</div>
</code></pre>
<p>正如一些人所指出的,<code>clipboard.js</code>是启动和处理这些请求的javascript所在。您可以通过检查元素的事件监听器或通过跟踪请求的发起程序堆栈来实现。这有一些行可以用来编写一个Python函数来清除它们。有一个名为PyQuery(<a href="https://pypi.python.org/pypi/pyquery" rel="nofollow noreferrer">docs</a>)的库,它允许您在HTML上使用类似jQuery的选择器,这样可以加快速度</p>