用Python进行网站导航、爬虫抓取和发帖

5 投票

1 回答

6689 浏览

提问于 2025-04-17 21:11

在StackOverflow上已经有很多不错的资源了，但我还是遇到了一些问题。我查看了这些资料：

我正在尝试访问http://www.latax.state.la.us/Menu_ParishTaxRolls/TaxRolls.aspx并选择一个教区。我认为这会强制进行一次POST请求，并让我选择一个年份，然后再次提交，这样我就可以进行更多选择。我根据以上资料写了几种不同的脚本，但都没有成功提交网站以让我输入年份。

这是我目前的代码：

import urllib
from bs4 import BeautifulSoup
import mechanize

headers = [
    ('Accept','text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'),
    ('Origin', 'http://www.indiapost.gov.in'),
    ('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17'),
    ('Content-Type', 'application/x-www-form-urlencoded'),
    ('Referer', 'http://www.latax.state.la.us/Menu_ParishTaxRolls/TaxRolls.aspx'),
    ('Accept-Encoding', 'gzip,deflate,sdch'),
    ('Accept-Language', 'en-US,en;q=0.8'),
]

br = mechanize.Browser()
br.addheaders = headers

url = 'http://www.latax.state.la.us/Menu_ParishTaxRolls/TaxRolls.aspx'

response = br.open(url)
# first HTTP request without form data
soup = BeautifulSoup(response)
# parse and retrieve two vital form values
viewstate = soup.findAll("input", {"type": "hidden", "name": "__VIEWSTATE"})
eventvalidation = soup.findAll("input", {"type": "hidden", "name": "__EVENTVALIDATION"})

formData = (
    ('__EVENTVALIDATION', eventvalidation[0]['value']),
    ('__VIEWSTATE', viewstate[0]['value']),
    ('__VIEWSTATEENCRYPTED',''),

)



try:
    fout = open('C:\\GIS\\tmp.htm', 'w')
except:
    print('Could not open output file\n')

fout.writelines(response.readlines())
fout.close()

我也在命令行中尝试过，我输入的内容和收到的结果（经过修改以减少内容）可以在http://pastebin.com/KAW5VtXp找到。

无论我如何尝试更改教区下拉列表中的值并提交，我都会被带到一个网站管理员登录页面。

我这样做的方式正确吗？任何想法都会非常有帮助。

谢谢！

数据提取命令行工具网页抓取 beautifulsoup POST请求 aspx页面爬虫抓取网站导航

1 个回答

我最后选择使用了selenium。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Firefox()
driver.get("http://www.latax.state.la.us/Menu_ParishTaxRolls/TaxRolls.aspx")
elem = driver.find_element_by_name("ctl00$ContentPlaceHolderMain$ddParish")
elem.send_keys("TERREBONNE PARISH")
elem.send_keys(Keys.RETURN)

elem = driver.find_element_by_name("ctl00$ContentPlaceHolderMain$ddYear")
elem.send_keys("2013")
elem.send_keys(Keys.RETURN)

elem = driver.find_element_by_id("ctl00_ContentPlaceHolderMain_rbSearchField_1")
elem.click()

APN = 'APN # here'
elem = driver.find_element_by_name("ctl00$ContentPlaceHolderMain$txtSearch")
elem.send_keys(APN)
elem.send_keys(Keys.RETURN)

# Access the PDF
elem = driver.find_element_by_link_text('Generate Report')
elem.click()
elements = driver.find_elements_by_tag_name('a')
elements[1].click()

回答于 2025-04-17 由 Python大师

分享举报

用Python进行网站导航、爬虫抓取和发帖

1 个回答

撰写回答