从a href inside p inside di提取/刮取文本 - 问答 - Python中文网

从a href inside p inside di提取/刮取文本

2024-05-26 09:19:18 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用的是BeautifulSoup（bs4）和Python，我现在有这个结构

<div class="class1">
  <a class="name" href="/doctor/dr-xxxxxxxxx"><h2>Dr. XX XXXX</h2></a>
  <p class="specialties"><a href="/location/abcd">ab cd</a></p>
  <p class="doc-clinic-name">
     <a class="light_grey link" href="/clinic/fff">f ff</a>
  </p>
</div>


<div class="class2">
  <p class="locality">
    <a class="link grey" href="/location/doctors/ccc">c cc</a>
  </p>
  <p class="fees">INR 999</p>
  <div class="timings">
       <p><span class="strong">MON-SAT</span><br/><span>11:00AM-1:00PM</span>                                   <span>6:00PM-8:00PM</span></p>
  <div class="clear"></div>
</div>

到目前为止我得到的密码是

^{pr2}$

所以基本上post和x包含div class1和class2。现在我想提取的信息是

在XXXXXX博士 abcd 法国法郎 ccc公司 999卢比周一至周六上午11:00至下午1:00

如何在post和x变量内分支以获取所需的信息。谢谢

编辑

我在html中添加了空格。有没有可能在不损害空格的情况下生成一个csv格式？ XX XXXX医生，ab cd，f ff，c cc，INR 999，周一至周六上午11:00-下午1:00

Tags： name div ab cd location h2 class grey

2条回答

网友

1楼 · 编辑于 2024-05-26 09:19:18

首先，你的压痕看起来不对。其次，我不认为在使用find时不需要for循环，因为它应该只返回第一个匹配项。在

如果您只需要链接，可以尝试：

for link in soup.find("div", {"class": "class1"}).findAll("a"):
  print link.text

或者，如果您想要链接本身：

^{pr2}$

您还应该注意到用于搜索类的方法，方法是将dict传递给find方法（Edit：我怀疑还有其他方法可以做到这一点）。这就是我学会的方法！）在

因此，你可以像你需要的那样具体

doctorlink = soup.find(("div", {"class": "class1"}).find("a", {"class": "name"})

网友

2楼 · 编辑于 2024-05-26 09:19:18

>>> ' '.join(soup.find("div", "class1").getText().split())
u'Dr. XXXXXX abcd fff'
>>> ' '.join(soup.find("div", "class2").getText().split())
u'ccc INR 999 MON-SAT11:00AM-1:00PM 6:00PM-8:00PM'

相关问题更多 >

编程相关推荐

热门问题

热门文章