如何用scrapy提交表格？

from scrapy.item import Item, Field from scrapy.http import FormRequest from scrapy.spider import Spider from scrapy.utils.response import open_in_browser class GitSpider(Spider): name = "github" allowed_domains = ["github.com"] start_urls = ["https://www.github.com/login"] def parse(self, response): formdata = {'login': 'username', 'password': 'password' } yield FormRequest.from_response(response, formdata=formdata, clickdata={'name': 'commit'}, callback=self.parse1) def parse1(self, response): open_in_browser(response)

3条回答

网友

1楼 · 编辑于 2024-05-13 22:15:27

使用webdriver的解决方案

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
from scrapy.contrib.spiders import CrawlSpider

class GitSpider(CrawlSpider):

    name = "gitscrape"
    allowed_domains = ["github.com"]
    start_urls = ["https://www.github.com/login"]

    def __init__(self):
        self.driver = webdriver.Firefox()

    def parse(self, response):
        self.driver.get(response.url)
        login_form = self.driver.find_element_by_name('login')
        password_form = self.driver.find_element_by_name('password')
        commit = self.driver.find_element_by_name('commit')
        login_form.send_keys("yourlogin")
        password_form.send_keys("yourpassword")
        actions = ActionChains(self.driver)
        actions.click(commit)
        actions.perform()
        # by this point you are logged to github and have access 
        #to all data in the main menù
        time.sleep(3)
        self.driver.close()

网友

2楼 · 编辑于 2024-05-13 22:15:27

你的问题是FormRequest.from_response()使用了一种不同的形式——“搜索形式”。但是，您希望它使用“登录表单”。提供一个formnumber参数：

yield FormRequest.from_response(response,
                                formnumber=1,
                                formdata=formdata,
                                clickdata={'name': 'commit'},
                                callback=self.parse1)

以下是应用更改后在浏览器中打开的内容（使用“假”用户）：

enter image description here

网友

3楼 · 编辑于 2024-05-13 22:15:27

使用“formname”参数也可以：

yield FormRequest.from_response(response,
                            formname='Login',
                            formdata=formdata,
                            clickdata={'name': 'commit'},
                            callback=self.parse1)

相关问题更多 >

编程相关推荐

热门问题

热门文章