擅长:python、mysql、java
<p>在这种情况下,你可以使用连字符算法或字典建议的单词中的音节分隔符。一个好的断字算法将告诉您<code>light-show</code>和{<cd2>}正确地分解单词。在</p>
<p>但我不认为在任何情况下都能做到这一点,如果没有一个数据文件显式地将<code>lightshow</code>映射到{<cd4>},并将{<cd5>}映射到{<cd6>}等等。无论你提出什么样的算法,都会出现出错的异常。在</p>
<p>Frank Liang的断字算法<a href="http://nedbatchelder.com/code/modules/hyphenate.html" rel="nofollow">is available here for Python</a>,并帮助您举两个例子之一:</p>
<pre><code>>>> hyphenate_word("dataset")
['dataset']
>>> hyphenate_word("lightshow")
['light', 'show']
</code></pre>
<p>您可以尝试测试<code>hyphenate_word()</code>返回的音节组合(这应该是非常有效的,因为它在TeX中使用),如果找不到任何东西,请尝试您原来的方法。在</p>
<p>它在以下方面做得很好:</p>
^{pr2}$
<p><a href="http://www.manythings.org/vocabulary/lists/a/words.php?f=compound_words" rel="nofollow">A handy list of compound words</a>,还有一些{a3}。在</p>