从非Flash中刮取图像

2024-05-15 21:28:48 发布

男 | 程序猿一只，喜欢编程写python代码。

我看了一个教程，使我能够刮图像，这里的代码到现在为止

import requests
import os

class Unsplash:
    def __init__(self,search_term,per_page=20,quality="thumb"):
        self.search_term = search_term
        self.per_page = per_page
        #self.page = 0
        self.quality = quality
        #self.headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "en-US,en;q=0.5", "Host": "unsplash.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0"}
        self.headers ={"Accept": "*/*", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "en-US,en;q=0.5", "Connection": "keep-alive", "Host": "unsplash.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0"}
    

    def set_url(self):
        #return f"https://unsplash.com/napi/search/photos?query={self.search_term}&xp=&per_page={self.per_page}&page={self.page}"
        #https://unsplash.com/napi/search?query={self.search_term}&xp=feedback-loop-v2:control&per_page={self.per_page}
        return f"https://unsplash.com/napi/search?query={self.search_term}&per_page={self.per_page}"

    def make_request(self):
        url = self.set_url()
        return requests.request("GET",url,headers=self.headers)

    def get_data(self):
        self.data = self.make_request().json()

    def save_path(self,name):
        download_dir = "unsplash"
        if not os.path.exists(download_dir):
            os.mkdir(download_dir)
        return f"{os.path.join(os.path.realpath(os.getcwd()),download_dir,name)}.jpg"

    def download(self,url,name):
        filepath = self.save_path(name)
        with open(filepath,"wb") as f:
            f.write(requests.request("GET",url,headers=self.headers).content)

    def Scraper(self,pages):
        for page in range(0,pages+1):
            self.make_request()
            self.get_data()
            for item in self.data['photos']['results']:
                name = item['id']
                url = item['urls'][self.quality]
                print(url)
                self.download(url,name)
            #self.pages += 1

if __name__ == "__main__":
    scraper = Unsplash("baby")
    scraper.Scraper(1)

代码正在工作，没有错误，文件夹已创建，有照片已下载，但在尝试打开图像时，我没有看到任何内容。我已经把一行打印的网址，以确保我在正确的轨道上，我发现的网址是正确的，并显示在浏览器中的照片正确。如何解决这个问题

当我删除“self.headers”部分时，它运行良好。但正如我们所看到的，标题被批准用于限制网站的区块。如何正确构造标题

Tags： name self com url search os request download

1条回答

网友

1楼 · 发布于 2024-05-15 21:28:48

从您的头中删除"Host": "unsplash.com"，这就是导致问题的原因，剩余的值在基本级别上足以欺骗连接

从非Flash中刮取图像

相关问题更多 >

编程相关推荐

热门问题

热门文章

从非Flash中刮取图像

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >