想知道如何获取泰卢固文的音节

1 投票
2 回答
900 浏览
提问于 2025-04-15 15:33

我正在研究泰卢固语的书写系统,它的Unicode范围是0C01-0C7F。你能帮我解释一下怎么找出音节吗?

(更新:我从那个问题复制过来的)

我可以对字符进行分类,但在泰卢固语中,一个音节可能包含一个或多个字符。当我从文件中提取字符时,音节被拆分了,无法把它们组合在一起。如果有人知道泰卢固语文本分类的相关知识,请帮帮我。

2 个回答

2

在泰卢固语中,音节的形成有几种方式:

  • V(在独立形式的单词开头)
  • C + V(辅音 + 元音,在依赖形式中)
  • C + C + V(辅音 + 辅音 + 元音)
  • C + C + C + V(辅音 + 辅音 + 辅音 + 元音)

如果你使用英语字母来转写成泰卢固语(比如谷歌转写工具),那么很多英语字母可能会组成一个音节。

比如“stree”(在谷歌转写工具中输入这个词),在泰卢固语中它只形成一个音节。你可以在这里分析这个泰卢固语字符串 http://rishida.net/tools/analysestring/index.php?list=స్త్,了解泰卢固语音节是如何形成的。

你有两种方法来解决这个问题:

[1] 如果你的输入是泰卢固语字母,找出代码点序列,并根据元音结束和新音节开始的地方将代码点序列分组。

[2] 如果你的输入是对应泰卢固字母的英语,那么你需要找出在什么地方将序列拆分成多个音节。

2

我不会说泰卢固语(抱歉!),但我知道这是一种以音节为基础的语言,音节是由元音(“achchu”)和辅音(“hallu”)组成的。正如维基百科所解释的,你会得到“六十个符号,其中16个是元音,三个是元音修饰符,四十一是辅音”。这个页面展示了Unicode的对应关系:元音的代码是0C05到0C14(还有0C60和0C61,分别是“元音”RR和LL);辅音的代码是0C15到0C39;其他的代码则是各种“符号、标点、数字”等等。

关于可能的音节的完整表格可以在这个PDF中找到,但我得承认,这种文字让我有点困惑,我很难分辨出哪些是哪些。如果你会说泰卢固语,或者能轻松接触到会说的人,你会比我更能清楚如何从一串泰卢固字符中提取音节。Python和这个没太大关系——它只是众多编程语言中的一种,可以让你实现你需要的算法来确定音节,但它绝对没有内置这样的算法!-)

撰写回答