BeautifulSoup：解析JavaScript动态内容问题的回答

BeautifulSoup：解析JavaScript动态内容

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<p>@ewlink找到了退出<code>unid</code>的方法，但无法退出价格。我试图从这个答案中找出价格</p> <p>目标div代码段：</p> <pre><code><div mp="2" id="line_e3724364" class="estoque-linha primeiro"><div class="e-col1"><a href="b/?p=e3724364" target="_blank"><img title="Rayearth Games" src="//www.lmcorp.com.br/arquivos/up/ecom/comparador/155937.jpg"></a></div><div class="e-col9-mobile"><div class="e-mob-edicao"><img src="//www.lmcorp.com.br/arquivos/up/ed_mtg/AKH_R.gif" height="19"></div><div class="e-mob-edicao-lbl"><p>Amonkhet</p></div><div class="e-mob-preco e-mob-preco-desconto"><font color="gray" class="mob-preco-desconto"><s>R$ 1,00</s></font><br>R$ 0,85</div></div><div class="e-col2"><a href="./?view=cards/search&amp;card=ed=akh" class="ed-simb"><img src="//www.lmcorp.com.br/arquivos/up/ed_mtg/AKH_R.gif" height="21"></a><font class="nomeedicao"><a href="./?view=cards/search&amp;card=ed=akh" class="ed-simb">Amonkhet</a></font></div><div class="e-col3"><font color="gray" class="mob-preco-desconto"><s>R$ 1,00</s></font><br>R$ 0,85</div> <div class="e-col4 e-col4-offmktplace"> <img src="https://www.lmcorp.com.br/arquivos/img/bandeiras/pten.gif" title="Português/Inglês"> <font class="azul" onclick="cardQualidade(3);">SP</font> </div> <div class="e-col5 e-col5-offmktplace "><div class="cIiVr lHfXpZ mZkHz">&nbsp;</div> <div class="imgnum-unid"> unid</div></div><div class="e-col8 e-col8-offmktplace "><div><a target="_blank" href="b/?p=e3724364" class="goto" title="Visitar Loja">Ir à loja</a></div></div></div> </code></pre> <p>如果我们仔细观察，我们可以</p> <pre><code>for item in soup.findAll('div', {"id": re.compile('^line')}): print(re.findall("R\$ (.*?)</div>", str(item), re.DOTALL)) </code></pre> <p><strong>输出[截断]：</strong></p> <pre><code>['10,00</s></font><br/>R$ 8,00', '10,00</s></font><br/>R$ 8,00'] ['9,50</s></font><br/>R$ 8,55', '9,50</s></font><br/>R$ 8,55'] ['9,50</s></font><br/>R$ 8,55', '9,50</s></font><br/>R$ 8,55'] ['9,75</s></font><br/>R$ 8,78', '9,75</s></font><br/>R$ 8,78'] [] [] </code></pre> <p>它提取主要的块，我们会得到价格。但这也会跳过多个项目</p> <p>为了获得所有数据，我们可以使用OCR API和Selenium来实现这一点。我们可以使用以下代码片段捕获感兴趣的元素：</p> <pre><code>from selenium import webdriver from PIL import Image from io import BytesIO fox = webdriver.Firefox() fox.get('https://ligamagic.com.br/?view=cards%2Fsearch&card=Hapatra%2C+Vizier+of+Poisons') #element = fox.find_element_by_id('line_e3724364') element = fox.find_elements_by_tag_name('s') location = element.location size = element.size png = fox.get_screenshot_as_png() # saves screenshot of entire page fox.quit() im = Image.open(BytesIO(png)) # uses PIL library to open image in memory left = location['x'] top = location['y'] right = location['x'] + size['width'] bottom = location['y'] + size['height'] im = im.crop((left, top, right, bottom)) # defines crop points im.save('screenshot.png') # saves new cropped image </code></pre> <p>从<a href="https://stackoverflow.com/a/15870708">https://stackoverflow.com/a/15870708</a>获得帮助</p> <p>我们可以像上面那样使用<code>re.findall()</code>来保存所有图像。获得所有图像后，我们可以使用OCR空间提取文本数据。下面是一个简短的片段：</p> <pre><code>import requests def ocr_space_file(filename, overlay=False, api_key='api_key', language='eng'): payload = {'isOverlayRequired': overlay, 'apikey': api_key, 'language': language, } with open(filename, 'rb') as f: r = requests.post('https://api.ocr.space/parse/image', files={filename: f}, data=payload, ) return r.content.decode() e = ocr_space_file(filename='1.png') print(e) # prints JSON </code></pre> <p><strong>1.png:</strong></p> <p><a href="https://i.stack.imgur.com/BLhE2.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/BLhE2.png" alt="enter image description here"/></a></p> <p>来自ocr.space的JSON响应：</strong></p> <pre><code>{"ParsedResults":[{"TextOverlay":{"Lines":[],"HasOverlay":false,"Message":"Text overlay is not provided as it is not requested"},"TextOrientation":"0","FileParseExitCode":1,"ParsedText":"RS 0',85 \r\n","ErrorMessage":"","ErrorDetails":""}],"OCRExitCode":1,"IsErroredOnProcessing":false,"ProcessingTimeInMilliseconds":"1996","SearchablePDFURL":"Searchable PDF not generated as it was not requested."} </code></pre> <p>它给我们，<code>"ParsedText" : "RS 0',85 \r\n"</code></p>

BeautifulSoup：解析JavaScript动态内容

1 个回答

相关Python问题