使用Python-lxml和长xpath进行抓取和解析

2条回答

网友

1楼 · 编辑于 2024-05-14 02:33:46

萤火虫产生的xpath真的很差。它们又长又脆弱，因为它们的非特定性超出了等级体系。今天的页面非常动态。你知道吗

在动态页面上使用xpath的最佳方法是将公共元素定位为钩子，并从作为路径根的元素执行xpath操作。我这里所说的共同元素是指稳定的结构元素，它们很可能存在或保证存在。从包含层次结构的角度选择最接近目标的一个。较短的路径更快更清晰。你知道吗

从那里您需要创建路径来定位目标元素上的某些特定的唯一属性或属性值。有时这是不可能的，所以另一个策略是以最接近的唯一可识别的容器元素为目标，然后在该容器下获取与您的元素相似的所有元素，并迭代它们以寻找您的目标。你知道吗

高度动态的页面需要复杂的动态方法。你知道吗

Facebook变化很大，需要经常维护脚本。你知道吗

网友

2楼 · 编辑于 2024-05-14 02:33:46

我发现有两件事对我很有帮助。你知道吗

第一件事：

lxml包允许结合Xpath使用一些函数。我使用了^{}函数，如下所示：

tweetID = elTree.xpath("//div[starts-with(@class, 'the-non-varying-part-of-a-very-long-class-name')]")

当使用诸如Firebug/Firepath之类的工具浏览HTML代码（树）时，所有内容都显示得很好、整洁—例如：

＊

当我使用高亮显示的路径，即tweet original-tweet js-original-tweet js-stream-tweet js-actionable-tweet js-profile-popup-actionable has-cards has-native-media with-media-forward media-forward cards-forward-在上面的代码中搜索我的elTree时，没有找到任何东西。你知道吗

看一看我试图解析的实际HTML文件，我发现它实际上分布在许多行中—如下所示：

这就解释了为什么lxml包没有根据我的搜索找到它。你知道吗

第二件事：

我知道一般不推荐使用Python方法作为解决方法，但是在我的例子中应用了Python方法，即“请求原谅比请求许可更容易”——接下来我做的事情是使用Python ^{} / ^{}处理一个类型错误，我一直在处理代码中看似任意的行

这可能是特定于我的代码的，但是在检查了许多情况下的输出之后，它似乎对我很有效。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章