如何将抓取的html从奇数字符转换为普通单词/cod

2024-06-16 08:51:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个漂亮的soup4 scraper,可以从页面中提取html。但有一张是这样印的:

print str(soup)[:1000]
print '....'
print str(soup)[-100:]

给出:

^{pr2}$

有人知道如何把文字转换成易读的东西吗?或者有人能解释一下发生了什么。在

注: 我正在抓取的站点是:http://www.caeden.com/collections/linea_no_2/?variant=CAE20101

编辑1。在

 print soup.prettify()

给出:

...

    �¥n˜‘¼ó’pDkù‹‹“^F,ªÌ°jå;?h£T�‹Þ‰û?¾Ráu)úÛ+YaµUx\4#ïy×Å
                                                                           ŽÖKí°ú‚
                                                                                   $HÞ–ñ–õvIìýºp^ýó¬‘s†åa¥Z
    ˆNž›NÒ©OmŽKþô8L\óÀÇ2S.âcÍ•"A¦â,D4ƒ
                                           +¹t6~Õ¹øØÞ&çÏ×…,®ôp•¦ç¡ë$à½Éœ_À´æ{€˜‹½PC»iè‚uaKª]´Ü€¬s§&(ÉƤ~nRç¦LåtÁÜÒ°ª¦Ð-W¸ßåÌõ
    ¬¯¿U e­¾Þî�€zg  Da+”nüêàïÞ”]yçF@›Ã©pcüËÝǸ!¢Õ;µ78Š_þǯ  aÅ…�âW¸òkÂXu¿¤øo™ü*P–®«¿ì¥•_“zå

                                                                                                          +Å/måF~›ì âKñËÞ•¹!¦Õµ°¥wl~¸j/ë¿ü•�_ÂâÝŸâW{èF ®;œK£¸Ö¨ÉZ¹OÃýÄ.5tYôç^FhÃîvűÝÑ&¯þ‰+E½þZjßúÆ`Þ–]·õ”Þ�”]Xߦuó­Y5ß°5óÍY1«æºÃÒ»
´»;ÒM÷Ù뺛ú
            î4yCet«™I©d éá
                            J–>â~&oÌkfo5D@Ä$âÙw“Èáü¯5ikmÖž·�vض?™“ÖD�h¿m‹°üGΈ¿Ž’üÛŸ +¨eýÄݲO·²o*õ
        <kÙrÚÔŸfüæö¡£þ±ˆ‰�iiúÍ´ôÝdc[âÏÈ9‚Ú0<9ª¸?qô]žqýÌ;ÚmÉ*gï?…#maîž[ kn±í£p¥ÁÒѱèv¨âhš�qÊb™+x¶|k§¯¨Í="" ÿûî‡#~="">
         ¼J©À±˜&gt;c×g-¤ÊMka:†»ho®Îh7%›ífì8n ©ÉTqXØaÎøÝeg¢q·d ~
                                                                    šÛG[[€f«i:&amp;wTú}èʽ½ÝA¿?`þ=3]”�7tÊø¡·í£Ì3Ç•�|¢ÄQùz
¯·àO…�–&lt;¢åŸRÙ@‰9ŽúOMcTé ›�b žÄíŽz�-œô   bÌ=wŒÚq·•Þî''6À¢TÍrxˆø1ˆ=Ù8[:霊’ü
¾¸ÁÜU�¥Œá"
          ±FGŽ•Sô�i´šÖn!ñ?‘p1¨ÅÆÔÆ[@I·�IüðÔ8Ž÷©ä¦šø[Qÿ(Þ`Lr½@j-CSrd0;ôðixí`äOòTʺ'yØGÝ'%ÈGb)ô&gt;@‚ôpšÌ˜É�ãâw’î_]Ð7¨Jþ+î/U1ìlzoaÂÅðåìôùùóWqœÆ8ÈBä[‡¤$?’ÃÌòB‘±È¶ê¾‘R\å{4œaý®+‹+Iâ|‰º3Ö-¦þ˜„¤;úÛÓú»]ã`§;Ôé^w`è;Ã]mo—í÷´Šâ¼\oØ?ØÝé
÷÷+rP]ûtºWÌÉåUwv÷•¡Êöv»z²ß§Ú`Gë©1ôõÞ Ëvz{ÆN
    †îŒK,É„ZãoŽ¤þ™¥úê   (ÇÈE\.ûd§o©ÿÒÊÈ nka(Núµ{Ž‰`Ãêøܵ†‘±&lt;уûT‹9Óp™~øa;&lt;¾%Ñ5(_Wð½ùá(É­k\–µ¶ã¤A€í;P€K x  BÇ�ê{fX Í•ÇÖAÙÜét^‚Ô„!3Ë4"j&amp;ábˆp&gt;˜ÅòL¥†ñ³¼ä;–™ßjž¿þéL¬&amp;¿ä’˜fÚIc«äo®‹�±Oc~Fxey‹
šÎ4“û$nVŠã£ìBcÎü+d„žL N¥ù³åpvy&lt;¥×íu‡Íí£\5æ„´
UåQÀ� Á¾�9³nXCñ«\�”ÛS\µw˜9Ý!ÇtÒîå5ÊlYåö¢„»± )àŸâäýa)¾óG 8?qÖY‡Ö+K}}jïý�¨L\tWüÒÔÖ¢å+wñÍÒùY´„§Å­ã8Χ刈;Š~w]ÿÊ]ó_Š®ñÝNß,eÓ+§$qI“üJSÍî$RÅ]¬Ím•‚­6:XšÛ�³Yß™ºµ‡Õ7m¡«er§Ò$3—ÀUêƒkY¸÷7�ù
         ÝOQx'Å?þ=bþRåΙÎZŸlÓù‘Û¸‡¾Û-ë „´c­ãŠ7¿OºüC93"™Õf
zÐÊP«²Ûc½Ï£%^&gt;&amp;ŸnŽ²t‚T•-dmØË×â¥q„__¿y{ñúÕéËCÝMõ‰ó·ˆï·“6&amp;1aX„æÄÄ^næCPlÅÇqe¡•ÀTÝ‚±tøéY/òõI/¢¾ßR¹œÎ1oâ×b#†øJ¢^‘‹s®pG�Üf·¶_N›æ„LfwÞõûD¶� ›ŠÝy›…kò�B=¼æ3íø3$·šÂ&amp;k’Q¦5ËÕù–~D2tu×"OI’ñP&lt;ò9ˆ¶+�ªó'Lqc8EË8ÌŸ³ÎpØëѽƒ=m²{0Ø7Øžc¹w0Deü(‡pPÍÍ2¤mt$‘zO’GÛ$Hm‹íV¥]Q1ð
                                                                                                           V„î[h—ƒýð1�
½jãNÚ’�Å]„x�
            ÷¢}²õÿÁ"`䣬
        </kÙrÚÔŸfüæö¡£þ±ˆ‰�iiúÍ´ôÝdc[âÏÈ9‚Ú0<9ª¸?qô]žqýÌ;ÚmÉ*gï?…#maîž[>
       </pšÌu¬´7w\eÔóòx©ÞÌ“>
      </h×À:'•<#¨ô�†„j–o’á>
     </gx Á&4²beŠ‚t±|§º"&¿¹£¦=Ù’¬ù–‘-ò¢[¯ìæÙn>
    </hõýaªg>
   </wqØÝ2*öðòÈ:—êšæ:ä>
  </c3e¼ùš¶Ž;€²>
 </body>
</html>

Tags: ltgthtml页面dcscraperiiamp
1条回答
网友
1楼 · 发布于 2024-06-16 08:51:25

在这种情况下,您要做的是在终端中显示不支持的文本字符。你需要做的是打开一个文本或理想的html文件并编写内容。以下是另一种解决方案:

result = open('result.html', 'w')
result.write(soup.prettify())
result.close()

相关问题 更多 >