需要多线程屏幕抓取帮助

from bs4 import BeautifulSoup import misc modules class StockOption: def __init__(self, DateDownloaded, OptionData): self.DateDownloaded = DateDownloaded self.OptionData = OptionData def ForCsv(self): return [self.DateDownloaded, self.Optiondata] def extract_options(TableRowsFromBeautifulSoup): optionsList = [] for opt in range(0, len(TableRowsFromBeautifulSoup)) optionsList.append(StockOption(data parsed from TableRows arg)) return optionsList def run_proc(): symbolList = read in csv file of tickers for symb in symbolList: webStr = #write the connection string try: with urllib.request.urlopen(webStr) as url: page = url.read() soup = BeautifulSoup(page) if soup.text.find('There are no All Markets results for') == -1: tbls = soup.findAll('table') if len(tbls[9]) > 1: expStrings = soup.findAll('td', text=True, attrs={'align': 'right'})[0].contents[0].split() expDate = datetime.date(int(expStrings[6]), int(currMonth), int(expStrings[5].replace(',', ''))) calls = extract_options(tbls[9], symb, 'Call', expDate) puts = extract_options(tbls[13], symb, 'Put', expDate) optionsRows = optionsRows + calls optionsRows = optionsRows + puts except urllib.error.HTTPError as err: if err.code == 404: pass else: raise opts = [0] * (len(optionsRows)) for option in range(0, len(optionsRows)): opts[option] = optionsRows[option].ForCsv() #Write to the csv file. with open('C:/OptionsChains.csv', 'a', newline='') as fp: a = csv.writer(fp, delimiter=',') a.writerows(opts) if __name__ == '__main__': run_proc()

2条回答

网友

1楼 · 编辑于 2024-06-06 04:33:16

下面的帖子给我指出了正确的方向（感谢作者btw）：

How to scrape more efficiently with Urllib2?

网友

2楼 · 编辑于 2024-06-06 04:33:16

你所给的缩写代码中有一些错误，所以要理解这些代码有点困难。如果您可以显示更多的代码并进行检查，那么您的问题将更容易理解。在

从代码和问题描述中，我有一些建议可以与您分享：

在run_proc()函数中，它读取每个符号的网页。如果URL是相同的或某些URL是重复的，那么只读取一次网页并将其写入内存或硬件，然后分析每个符号的页面内容如何？它将节省
BeautifulSoup很容易编写代码，但性能有点慢。如果lxml可以完成您的工作，它将节省大量分析网页内容的时间。

希望能有所帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章