Python错误“序号不在范围内”，带重音符号

data = [ str(td[0]).split('<sup')[0].split('>')[1].split('<')[0], td[1].getText() ] output.append(data) csv_file = csv.writer(open('savedFile.csv', 'w'), delimiter=',') for line in output: csv_file.writerow(line)

2条回答

网友

1楼 · 编辑于 2024-04-19 06:55:17

如果td[0]是u"a<sup>b</sup>c"：

td[0].split('<sup')是u"a"。在

td[0].partition('>')[2].split('<')[0]是u"b"。在

td[0][td[0].rindex('>') + 1:]是u"c"。在

如果这种字符串索引和匹配过于简单，您可以考虑创建一个正则表达式并将其与html标记中的文本进行匹配：

import re
r = re.compile("[^<]*<sup>([^<]*)</sup>")
m = r.match("some<sup>text</sup>")
print(m.groups()[0])

网友

2楼 · 编辑于 2024-04-19 06:55:17

csv.reader()和{}需要以二进制模式打开的文件。您还应该在文件末尾关闭该文件。因此，您应该这样写：

f = open('output.csv', 'wb')
writer = csv.writer(f, delimiter=',')

for row in output:
    writer.writerow(row)

f.close()

或者您可以在使用较新版本的Python时使用with构造：

^{pr2}$

。。。文件将自动关闭。在

不管怎样csv.writer（）需要由字节序列（而不是Unicode字符串）组成的行。如果有Unicode字符串，请使用.encode（'utf-8'）进行转换：

    for row in output:
        encoded_row = [s.encode('utf-8') for s in row]
        writer.writerow(encoded_row)

相关问题更多 >

编程相关推荐

热门问题

热门文章