用靓汤解析网站json表中的数据

from selenium import webdriver from bs4 import BeautifulSoup import pandas as pd import time import json def main(): # BASE AND EXTENTIONS FOR EACH CURRENCY COLUMNWISE base_cols_url='https://uk.reuters.com/assets/' forex_cols={} forex_cols['GBP']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=GBP' forex_cols['EUR']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=EUR' forex_cols['USD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=USD' forex_cols['JPY']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=JPY' forex_cols['CHF']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CHF' forex_cols['AUD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=AUD' forex_cols['CAD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CAD' forex_cols['CNY']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CNY' forex_cols['HKD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=HKD' # loop through the pages for sym in forex_cols: print(sym) print(base_cols_url+forex_cols[sym]) get_data_from_page(sym,base_cols_url+forex_cols[sym]) def get_data_from_page(SYMBOL,PAGE): browser = webdriver.PhantomJS() # PARSE THE HTML browser.get(PAGE) soup = BeautifulSoup(browser.page_source, "lxml") rows = soup.findAll('td') # PARSE ALL THE COLUMN DATA for r in rows: print(r) # this prints nothing print(soup) # this prints the page but the markups are missing and replaced with '<tr><td>&lt' return if __name__ == '__main__': main()

1条回答

网友

1楼 · 发布于 2024-06-12 03:00:46

好吧，在json的一些尝试失败之后，我尝试了一个非常粗糙的基本字符串解析方法，但是它确实起到了作用，只是为了防止其他人想做类似的事情。在

from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import time
import json

def main():

    # BASE AND EXTENTIONS FOR EACH CURRENCY COLUMNWISE
    base_cols_url='https://uk.reuters.com/assets/'
    forex_cols={}
    forex_cols['GBP']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=GBP'
    forex_cols['EUR']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=EUR'
    forex_cols['USD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=USD'
    forex_cols['JPY']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=JPY'
    forex_cols['CHF']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CHF'
    forex_cols['AUD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=AUD'
    forex_cols['CAD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CAD'
    forex_cols['CNY']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=CNY'
    forex_cols['HKD']='jsonCurrencyPairs?callback=drawCurrencyPairs&srcCurr=HKD'

    for sym in forex_cols:
        print(sym)
        print(base_cols_url+forex_cols[sym])
        get_data_from_page(sym,base_cols_url+forex_cols[sym])


def get_data_from_page(SYMBOL,PAGE):

    browser = webdriver.PhantomJS()
    # PARSE THE HTML
    browser.get(PAGE)
    soup = BeautifulSoup(browser.page_source, "lxml")
    rows = str(soup).split('"row"')

    # PARSE ALL THE COLUMN DATA
    for r in rows:
        # PARSE OUT VALUE COL
        try:
            print(r.split('&lt;/a&gt;&lt;/td&gt;&lt;td&gt;')[1].split('&lt;/td&gt;&lt;td class=')[0])
        except: IndexError
        pass
        # PARSE OUT CURRENCY PAIR
        try:
            print(r.split('sparkchart?symbols=')[1].split('=X&amp;')[0])
        except: IndexError
        pass

    return


if __name__ == '__main__':
   main()

相关问题更多 >

编程相关推荐

热门问题

热门文章