标记串联字符串

2条回答

网友

1楼 · 编辑于 2024-04-28 07:54:29

您是否也可以推出自己的实现？我在想这样一个算法：

找一本字典，里面有你想区分的所有单词
构建一个允许快速查找的数据结构（我在考虑一个^{}）
试着找到第一个单词（从一个字符开始，一直增加到找到一个单词为止）；如果找到了，则使用剩余的字符串，并执行相同的操作，直到什么都没有留下。如果找不到任何东西，回溯并扩展前面的单词。你知道吗

如果字符串可以拆分，应该是可以的，但是如果它是乱七八糟的，会尝试所有的可能性。当然，这要看你的字典有多大。但这只是一个简单的想法，也许有帮助。你知道吗

网友

2楼 · 编辑于 2024-04-28 07:54:29

如果选择使用BigQuery解决此问题，则以下是备选解决方案：

将所有可能的英语单词列表加载到名为words的表中。例如，https://github.com/dwyl/english-words有大约350000个单词的列表。互联网上也有其他免费的数据集（如WordNet）。
使用标准SQL，对候选列表运行以下查询：

SELECT first, second FROM ( SELECT word AS first, SUBSTR(candidate, LENGTH(word) + 1) AS second FROM dataset.words CROSS JOIN ( SELECT candidate FROM UNNEST(["longstring", "googlecloud", "helloxiuhiewuh"]) candidate) WHERE STARTS_WITH(candidate, word)) WHERE second IN (SELECT word FROM dataset.words)

在本例中，它产生：

Row first   second   
1   long    string   
2   google  cloud

即使是非常大的英文单词列表也只有几MB，所以这个查询的成本是最小的。第一次1 TB扫描是免费的-这对于2 MB表上大约500000次扫描来说已经足够了。在那之后，每次额外的扫描是0.001美分。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章