查找文件中的所有URL

def convert(lst): return ' '.join(lst) with open("test.txt", 'r') as f: for lines in f: test = convert(lines) urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', lines) print(urls)

28 https://letterboxd.com/film/deep-blue-sea/ 29 https://letterboxd.com/film/the-chronicles-of-riddick/ 30 https://letterboxd.com/film/sonic-the-hedgehog/ 31 https://letterboxd.com/film/the-babysitter-2017/

2条回答

网友

1楼 · 编辑于 2024-05-12 21:09:12

您的lines是文件中的每一行。您希望执行以下操作：

def convert(lst):
    return ' '.join(lst)

with open("test.txt", 'r') as f:
    lines = f.read()
    test = convert(lines)
    urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', lines)

print(urls)

网友

2楼 · 编辑于 2024-05-12 21:09:12

绝对没有必要先阅读所有的行，然后再阅读它们。相反，您可以使用f.read()一步直接读取文件中的所有数据

试试这个：

with open("test.txt", 'r') as f:
        urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', f.read())

现在执行print(urls)将产生所需的输出

相关问题更多 >

编程相关推荐

热门问题

热门文章