使用XPath提取信息

2024-04-18 07:20:56 发布

您现在位置:Python中文网/ 问答频道 /正文

大家下午好

我终于编译了一个工作XPath列表,这些XPath是从我需要的URL中获取所有信息所必需的。你知道吗

我想问你的建议,对于一个新手在编码什么是最好的方式刮约50k链接只使用xpath(约100 xpath为每个链接)?你知道吗

你知道吗导入.io是我目前最好的工具,甚至是Excel的SEO工具,但它们都有自己的局限性。导入io很昂贵,excel的SEO工具不适合提取超过1000个链接。你知道吗

我愿意学习系统建议,但请建议一个好的方式刮我的项目!你知道吗

#

解决了!搜索引擎优化工具爬虫实际上是超级有用的,我相信我已经找到了我需要的。我想我会推迟Python或Java,直到遇到另一个困难。 谢谢大家!你知道吗


Tags: 工具io信息seourl编码列表链接
2条回答

我鼓励您使用Python(我使用2.7.x)w/Selenium。我经常使用这个组合自动地对网站进行抓取和测试(以有头和无头的方式),Selenium打开了与脚本化的网站交互的机会,这些网站没有为每个页面提供明确的网络调用。你知道吗

下面是一个来自Selenium文档的快速教程:2. Getting Started

有很多很好的源代码,发布它们需要很长时间;但是,您会发现Python社区非常有用,并且您可能会看到Python是这种web交互的一种很好的语言。你知道吗

祝你好运!你知道吗

这在很大程度上取决于你所说的“搜集信息”是什么意思。你到底想从网站上挖掘什么?所有主要语言(当然是您提到的Java和Python)都有很好的解决方案,可以连接到网站、读取内容、使用DOM解析HTML以及使用XPath提取某些片段。例如,Java有JTidy,它允许您将网站中甚至“脏”的HTML解析到DOM中,并对其进行某种程度的操作。但是,所需的工具将取决于项目的确切数据处理需求。你知道吗

相关问题 更多 >