从文本中提取Python域新的TLDs识别问题

2024-04-19 21:56:56 发布

您现在位置:Python中文网/ 问答频道 /正文

随着新TLD(.club、.jobs等)的出现,当前从文本中提取/解析域的最佳实践是什么?我的典型方法是regex,但是考虑到文件名和扩展名会触发误报,我需要更严格的限制。你知道吗

我注意到,即使是谷歌有时也无法正确识别我是在搜索文件名还是想进入某个域。这似乎是一个相当具有挑战性的问题。机器学习可能是理解字符串上下文的一种潜在方法。然而,除非有一个图书馆已经做到了这一点,否则我不会费心太花哨。你知道吗

我考虑的一种方法是在regexing之后,查询http://data.iana.org/TLD/tlds-alpha-by-domain.txt,它保存当前tld的静态列表并将其用作过滤器。有什么建议吗?你知道吗


Tags: 方法字符串文本机器图书馆文件名jobs费心
1条回答
网友
1楼 · 发布于 2024-04-19 21:56:56

这不是一个容易的问题,它取决于您需要提取域名的上下文,以及您可以支持的误报和漏报的接受率。您确实可以使用当前现有tld的列表,但此列表会发生更改,因此您需要确保考虑到列表中最近的足够值。你知道吗

在试图确保所有tld(无论长度、创建日期和使用的字符)是相等的过程中,您遇到了普遍接受运动所涵盖的问题。你知道吗

他们提供了一个关于“链接化”的文件,这个文件有一个子问题,即提取链接的事实,因此除其他外,还有域。看看他们的文档:https://uasg.tech/wp-content/uploads/2017/06/UASG010-Quick-Guide-to-Linkification.pdf

所以这可以给你一些想法,以及他们在https://uasg.tech/wp-content/uploads/2016/06/UASG005-160302-en-quickguide-digital.pdf的快速指南

相关问题 更多 >