如何在pythonselenium中从网页的HTML表中获取数据

2024-06-11 04:00:19 发布

您现在位置:Python中文网/ 问答频道 /正文

这就是我想要的

链接“http://tinyurl.com/2bp99mm““

使用"EWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG"来爆破蛋白质序列。在

结果网页具有表上的链接列表。在Accesion栏中有一些我感兴趣的网页链接

我只想第一个链接的文本,以一个数字开始,有第二个字符作为字母表。在当前场景中,您将找到“3RGK_A”,这是我想要的文本。在

我知道我可以使用links.add(driver.FindElements(By.TagName("a")));,但是如何满足链接的条件,以数字开头,第二个字符作为字母表。在

我迷路了,对selenium和python还不熟悉,但我正在努力学习。。任何帮助都会被通知的

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait 
import time
import numpy,random
import sys,re

driver = webdriver.Firefox()

driver.get("http://tinyurl.com/2bp99mm")
inputElement = driver.find_element_by_name( "QUERY" )
inputElement.send_keys("EWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG")##str(seq2))

inputElement.submit()
# the page is ajaxy so the title is originally this:
print driver.title

driver.implicitly_wait(30)

click_event = driver.find_element_by_link_text("3RGK_A")
click_event.click()

我希望程序找到“3RGK_A”是第一个链接,并将值存储在对象中


Tags: from文本importcomhttp网页链接driver