支持域适应和外部资源的部分语音标记器。
SoMeWeTa的Python项目详细描述
Someweta(Social Media and Web Tagger的缩写)是演讲的一部分 支持域适配并可以合并 外部信息来源,如棕色集群和LoCICA。它 基于平均结构感知器并使用波束搜索 以及早期更新策略。可以培训和评估 部分注释数据上的标记。
Someweta在德国网络上取得了最新的成果 来自EmpiriST 2015 shared task的社交媒体文本 计算机交际/社交的语言诠释 媒体。因此,someweta特别适合标记所有 各种德语书面语,如聊天、论坛、维基 聊天页面、推特、博客评论、社交网络、短信和WhatsApp 对话。
此外,我们还提供德语、英语和 法国报纸文本。对于所有三种语言,someweta都达到了 高度竞争的结果接近目前的技术水平。
有更详细的文档here。