如何删除除数字以外的所有内容（韩国公司的网络爬网市值）

from bs4 import BeautifulSoup import requests mkc_url = 'https://finance.naver.com/item/main.nhn?code=005930' mkc_result = requests.get(mkc_url) mkc_obj = BeautifulSoup(mkc_result.content, "html.parser")

2条回答

网友

1楼 · 编辑于 2024-06-11 04:52:37

定义了em_id之后，通过执行

em_txt = em_id.get_text()

然后，您可以使用（多亏了this answer）消除空白

clean_em = "".join(line.strip() for line in em_txt.split("\n"))

最后，如果货币总是相同的，您可以通过执行以下操作创建一个包含两个数值的列表

mcap_list = clean_em.split('조')

您可能希望通过执行以下操作来除去4,299中的逗号

mcap_list[1] = mcap_list[1].replace(",","")

并使用

for i in range(len(mcap_list)):
    mcap_list[i] = int(mcap_list[i])

现在mcap_list等于[290,4299]

网友

2楼 · 编辑于 2024-06-11 04:52:37

另一种解决方案是使用^{}和^{}，考虑到以下虚拟数据帧：

df = pd.DataFrame({'Extract' : ['Total revenue for this year is $10,000, for last year it was $8000',
                                'and profit in USD is $2000.00','it is 20.00%',
                                'This is in Korean currency 500조']})

df['Numbers'] = df['Extract'].str.findall(r'(\d+[.,]?\d*)')

print(df['Numbers')

0    [10,000, 8000]
1         [2000.00]
2           [20.00]
3             [500]

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除除数字以外的所有内容（韩国公司的网络爬网市值）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >