python使用reg表达式拆分beautifulsoup对象

LinkNames[1] = TempLinkNames[7] LinkNames[2] = TempLinkNames[8] LinkNames[3] = TempLinkNames[9] LinkNames[4] = TempLinkNames[4] LinkNames[5] = TempLinkNames[2] LinkNames[6] = TempLinkNames[5] LinkNames[7] = TempLinkNames[3] LinkNames[8] = TempLinkNames[0] LinkNames[9] = TempLinkNames[1] print(LinkNames)

BWPLinkNames = {BWPCombineNames[6]: BWPSingLinkTime[6], BWPCombineNames[7]: BWPSingLinkTime[7], BWPCombineNames[8]: BWPSingLinkTime[8], BWPCombineNames[9]: BWPSingLinkTime[9], BWPCombineNames[4]: BWPSingLinkTime[4], BWPCombineNames[2]: BWPSingLinkTime[2], BWPCombineNames[5]: BWPSingLinkTime[5], BWPCombineNames[3]: BWPSingLinkTime[3], BWPCombineNames[0]: BWPSingLinkTime[0], BWPCombineNames[1]: BWPSingLinkTime[1]}

1条回答

网友

1楼 · 发布于 2024-04-25 00:28:37

您可以使用re.findall：

import re
s = 'via I-405/I-65/I-5258 min. 46 sec.'
[timestamp] = re.findall('\d{1}\smin\.\s\d+\ssec', s)
final_result = '.'.join(re.findall('\d+', timestamp))

输出：

'8.46'

编辑：可以使用BeautifulSoup查找目标，然后使用str.replace：

from bs4 import BeautifulSoup as soup
import re
s = """
<div class="coloredodd" id="odContent">
  <b>via I-405/I-65/I-525</b>
  <br></br>
  58 min. 8 sec.
  <br></br>
</div>
"""
destination = soup(s, 'html.parser').find('b').text
timestamp = '.'.join(re.findall('\d+', soup(s, 'html.parser').find('div').text.replace(destination, '')))

输出：

'via I-405/I-65/I-525'
'58.8'

编辑：不是迭代BWLinkNames[key]，而是简单地利用BWLinkNames[key]：

for i, key in enumerate(BWLinkNames):
  worksheet.write(i, col, key)
  worksheet.write(i, col + 1, BWLinkNames[key])

workbook.close()

相关问题更多 >

编程相关推荐

热门问题

热门文章