如何从网页上抓取JavaScript生成的内容？

2条回答

网友

1楼 · 编辑于 2024-04-25 06:22:12

该页面根据该部分中lis的ID发出请求。收集ID，转换成大写，并发出相同的请求。需要bs4.7.1+

from bs4 import BeautifulSoup as bs
import requests

with requests.Session() as s:
    s.headers = {'User-Agent':'Mozilla/5.0'}
    r = s.get('https://www.sec.gov/cgi-bin/viewer?action=view&cik=320193&accession_number=0000320193-18-000145&xbrl_type=v#')
    soup = bs(r.content, 'lxml')
    urls = [f'https://www.sec.gov/Archives/edgar/data/320193/000032019318000145/{i["id"].upper()}.htm' for i in soup.select('li:has(#menu_cat3) .accordion')]

    for url in urls:
        r = s.get(url)
        soup = bs(r.content, 'lxml')
        print([i.text for i in soup.select('font')])

网友

2楼 · 编辑于 2024-04-25 06:22:12

你可以用硒或刮痧 https://selenium-python.readthedocs.io/index.html

方法：

https://selenium-python.readthedocs.io/navigating.html

导航到该链接单击html元素-可以通过使用xpath或css选择器来完成获取文本内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从网页上抓取JavaScript生成的内容？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >