在Python中提取url的特定部分

3条回答

网友

1楼 · 编辑于 2024-06-10 01:56:33

使用一组预定义的顶级doamains怎么样？在

import re
from urlparse import urlparse

#Fake top level domains... EG: co.uk, co.in, co.cc
TOPLEVEL = [".co.[a-zA-Z]+", ".fake.[a-zA-Z]+"]

def TLD(rgx, host, max=4): #4 = co.name
        match = re.findall("(%s)" % rgx, host, re.IGNORECASE)
        if match: 
            if len(match[0].split(".")[1])<=max:
                return match[0]
        else:
            return False

parsed = []
urls = ["http://www.mywebsite.xxx.asd.com", "http://www.dd.test.fake.uk/asd"]
for url in urls:
    o = urlparse(url)
    h = o.hostname
    for j in range(len(TOPLEVEL)):
        TL = TLD(TOPLEVEL[j], h)
        if TL: 
            name = h.replace(TL, "").split(".")[-1]
            parsed.append(name)
            break
        elif(j+1==len(TOPLEVEL)): 
            parsed.append(h.split(".")[-2])
            break

print parsed

这有点老套，可能对某些人来说很神秘，但它确实起了作用，而且不需要做更多的事情：）

网友

2楼 · 编辑于 2024-06-10 01:56:33

这是我的解决方案，最后，域包含了您期望的域列表。在

import urlparse
urls = [
    'https://www.google.com', 
    'http://stackoverflow.com',
    'http://www.google.co.in',
    'http://domain.com',
    ]
hostnames = [urlparse.urlparse(url).hostname for url in urls]
hostparts = [hostname.split('.') for hostname in hostnames]
domains = [p[0] == 'www' and p[1] or p[0] for p in hostparts]
print domains # ==> ['google', 'stackoverflow', 'google', 'domain']

讨论

首先，我们使用urlparse.urlparse()从url列表中提取主机名。主机名列表如下所示：
['www.google.com', 'stackoverflow.com网站, ... ]
在下一行中，我们使用点作为分隔符将每个主机拆分为多个部分。hostparts中的每个项目如下所示：
[['www'，'google'，'com']，['stackoverflow'，'com']。。。]
有趣的工作在下一行。这一行说，“如果点前面的第一部分是www，那么域就是第二部分（p[1]）。否则，域是第一部分（p[0]）。域列表如下所示：
['google'，'stackoverflow'，'google'，'domain']
我的代码不知道如何处理登录gmail.com香港。我希望有人能解决这个问题，因为我要迟到了。更新：看看John Kurkowski的tldextact，它应该能满足您的需要。

网友

3楼 · 编辑于 2024-06-10 01:56:33

你为什么不能这么做：

from urlparse import urlparse as ue
urls = ['https://www.google.com', 'http://stackoverflow.com']
parsed = []
for url in urls:
    decoded = ue(url).hostname
    if decoded.startswith('www.'):
        decoded = ".".join(decoded.split('.')[1:])
    parsed.append(decoded.split('.')[0])
#parsed is now your parsed list of hostnames

此外，您可能希望更改for循环中的if语句，因为某些域可能以其他要删除的内容开头。在

讨论

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中提取url的特定部分

讨论

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >