我是编程和Python的新手。你知道吗
我正在使用python2.7和BeautifulSoup从某个搜索结果页面提取所有url。你知道吗
页面是https://www.ohiobar.org/Pages/Find-a-Lawyer.aspx?sFN=&sLN=&sPA=&sCI=&sST=OH&sZC=(可能需要一段时间才能加载)
URL周围的代码如下如下所示:你知道吗
<div id="content_findResults">
<div id="content_column1">
<h1 id="ctl00_ctl45_g_1e68d58d_9902_48ce_b555_5d3eb35d5624_ctl00_headingCriteria">Showing Search Results for 'OH'</h1>
<h2 id="ctl00_ctl45_g_1e68d58d_9902_48ce_b555_5d3eb35d5624_ctl00_headingResults">Your search returned 18440 results</h2>
<h4 id="ctl00_ctl45_g_1e68d58d_9902_48ce_b555_5d3eb35d5624_ctl00_headingYourSearch">Your search: 'State: OH'</h4>
<ul id="ctl00_ctl45_g_1e68d58d_9902_48ce_b555_5d3eb35d5624_ctl00_resultsList">
<li>
<a href="**/Pages/MemberProfile.aspx?sST=OH&pID=10727**">Janet Gilligan Abaray</a></li>
<li>
<a href="**/Pages/MemberProfile.aspx?sST=OH&pID=26507**">Kenneth Pascal Abbarno</a></li>
我不知道该用什么来确保我可以从多个div,UL和LI中提取url。你知道吗
我正在使用以下命令:
def oh_crawler():
url = "https://www.ohiobar.org/Pages/Find-a-Lawyer.aspx?sFN=&sLN=&sPA=&sCI=&sST=OH&sZC="
code = requests.get(url)
text = code.text
soup = BeautifulSoup(text)
for link in soup.find('div',{'id':'content_findResult', 'id':'content_column1'},'a'):
href = 'https://www.ohiobar.org' + link.get('href')
print (href)
很明显它不起作用。你知道吗
请告诉我如何选择网址打印。你知道吗
可以在
href
属性中获取包含MemberProfile
的所有a
元素:在这里,我使用CSS selector来定位
a
元素。你知道吗印刷品:
相关问题 更多 >
编程相关推荐