我想把像这样的页面中的文本:https://www.ncbi.nlm.nih.gov/protein/p22217刮成一个字符串。尤其是DBSOURCE中的文本块
我似乎有很多关于使用的建议汤.findall(text=true)诸如此类,但却一无所获。至少在2018年之前的任何东西似乎都已经过时了(我使用的是python3.7)。我认为问题是我想要的内容超出了r.text和r.content的范围;当我用ctrl F搜索时,我要查找的部分不在那里。你知道吗
from bs4 import BeautifulSoup
import requests
url = "https://www.ncbi.nlm.nih.gov/protein/P22217"
r = requests.get(url)
data = r.content
soup = BeautifulSoup(data, "html.parser")
PageInfo = soup.find("pre", attrs={"class":"genbank"})
print(PageInfo)
这种尝试和其他尝试的结果是“无”。没有错误信息,它只是不返回任何东西。你知道吗
页面正在进行XHR调用以获取您要查找的信息。 调用是https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id=135747&db=protein&report=genpept&conwithfeat=on&show-cdd=on&retmode=html&withmarkup=on&tool=portal&log$=seqview&;maxdownloadsize=1000000
它又回来了
。。。你知道吗
因此,从代码中执行HTTP调用以获取数据。你知道吗
您可以使用它,因为页面依赖于xmlhttprequests
代码:
演示代码:Here
说明:
正则表达式:
演示正则表达式:Here
相关问题 更多 >
编程相关推荐