使用公共后缀列表将tld与url的注册域和子域精确分离。默认情况下,这包括公共icann tld及其例外。您也可以选择支持公共后缀列表的私有域。
tldextract的Python项目详细描述
tldextract
精确分离gtld或cctld(通用或国家代码
顶级域)。
>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
>>> tldextract.extract('http://forums.bbc.co.uk/') # United Kingdom
ExtractResult(subdomain='forums', domain='bbc', suffix='co.uk')
>>> tldextract.extract('http://www.worldbank.org.kg/') # Kyrgyzstan
ExtractResult(subdomain='www', domain='worldbank', suffix='org.kg')
ExtractResult
是一个namedtuple,因此访问所需的部分很简单。
>>> ext = tldextract.extract('http://forums.bbc.co.uk')
>>> (ext.subdomain, ext.domain, ext.suffix)
('forums', 'bbc', 'co.uk')
>>> # rejoin subdomain and domain
>>> '.'.join(ext[:2])
'forums.bbc'
>>> # a common alias
>>> ext.registered_domain
'bbc.co.uk'
默认情况下,此包支持公共icann tld及其异常。 您也可以选择支持公共后缀列表的私有域。