转到社交媒体管理网站上的原始URL

3条回答

网友

1楼 · 编辑于 2024-04-19 16:54:11

在许多情况下，您将不得不使用浏览器自动化来刮取使用javascript生成其内容的网页，刮取get请求返回的html将不会产生您想要的结果，您可以在这里选择两个选项：

尝试绕过所有额外的javascript请求来获得您想要的内容，这可能非常耗时。在
使用浏览器自动化（browser automation），它允许您打开一个真正的浏览器并自动化其任务，您可以使用Selenium来实现这一点。在

我已经开发了很多年的bot和scraper，除非你请求的网页不太依赖javascript，否则你应该使用selenium之类的东西。在

下面是一些让您开始使用selenium的代码：

from selenium import webdriver

#Create a chrome browser instance, other drivers are also available
driver = webdriver.Chrome()     

#Request a page
driver.get('http://linkis.com/conservatives4palin.com/uGXam')

#Select elements on the page and trigger events
#Selenium supports also xpath and css selectors
#Clicks the tag with the given id
driver.find_elements_by_id('some_id').click()

网友

2楼 · 编辑于 2024-04-19 16:54:11

网站遵循的常见架构是将网站显示为iframe。这两种情况下都运行示例代码。在

为了获得最终的URL，您可以执行以下操作：

import requests                                                                                                                                                                                        
from bs4 import BeautifulSoup                                                                                                                                                                          

urls = ["http://linkis.com/conservatives4palin.com/uGXam", "http://linkis.com/paper.li/gsoberon/jozY2"]                                                                                                
response_data = []                                                                                                                                                                                     

for url in urls:                                                                                                                                                                                       
    response = requests.get(url)                                                                                                                                                                       
    soup = BeautifulSoup(response.text, 'html.parser')                                                                                                                                                 
    short_url = soup.find("iframe", {"id": "source_site"})['src']                                                                                                                                      
    response_data.append(requests.get(short_url).url)                                                                                                                                                  

print(response_data)

网友

3楼 · 编辑于 2024-04-19 16:54:11

根据您给出的两个网站，我想您可以尝试以下代码来获取它们的原始url，因为它们都隐藏在javascript的一部分中（我使用的主要scraper代码来自您发布的问题）：

try: from HTMLParser import HTMLParser except ImportError: from html.parser import HTMLParser import requests, re from contextlib import closing CHUNKSIZE = 1024 reurl = re.compile("\"longUrl\":\"(.*?)\"") buffer = "" htmlp = HTMLParser() with closing(requests.get("http://linkis.com/conservatives4palin.com/uGXam", stream=True)) as res: for chunk in res.iter_content(chunk_size=CHUNKSIZE, decode_unicode=True): buffer = "".join([buffer, chunk]) match = reurl.search(buffer) if match: print(htmlp.unescape(match.group(1)).replace('\\','')) break ；

和13；

相关问题更多 >

编程相关推荐

热门问题

热门文章