使用XPath提取信息

2条回答

网友

1楼 · 编辑于 2024-04-18 07:20:56

我鼓励您使用Python（我使用2.7.x）w/Selenium。我经常使用这个组合自动地对网站进行抓取和测试（以有头和无头的方式），Selenium打开了与脚本化的网站交互的机会，这些网站没有为每个页面提供明确的网络调用。你知道吗

下面是一个来自Selenium文档的快速教程：2. Getting Started

有很多很好的源代码，发布它们需要很长时间；但是，您会发现Python社区非常有用，并且您可能会看到Python是这种web交互的一种很好的语言。你知道吗

祝你好运！你知道吗

网友

2楼 · 编辑于 2024-04-18 07:20:56

这在很大程度上取决于你所说的“搜集信息”是什么意思。你到底想从网站上挖掘什么？所有主要语言（当然是您提到的Java和Python）都有很好的解决方案，可以连接到网站、读取内容、使用DOM解析HTML以及使用XPath提取某些片段。例如，Java有JTidy，它允许您将网站中甚至“脏”的HTML解析到DOM中，并对其进行某种程度的操作。但是，所需的工具将取决于项目的确切数据处理需求。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章