一个利用中文word net实现词义消歧的软件包

CwnSenseTagger的Python项目详细描述


基于中文词网的词义消歧

汉语是一门复杂的语言,汉语词义消歧一直是一个难题。一个词在不同的场合可以有几十个甚至几百个意思。人工标注词义是劳动密集型和低效的。在

在本计画中,我们的目标是藉由最新的伯特模型来解决这个问题。它给我们带来了巨大的性能提升,在中文词义消歧问题上可以获得大约82%的准确率。在

预请求

  • 输入应首先标记化。POS标记是首选,但不是必需的。在
  • 假设我们有m个句子,每个句子有$n_m$个单词。
    • 列出句子[[列出单词[[target,pos,sense\u id,sense]*$n_m$]*m]

    • 下面是一个有两个句子的例子,输入数据的格式如下

        [[["他","Nh","",""],["由","P","",""],["昏沈","VH","",""],["的","DE","",""],["睡夢","Na","",""],["中","Ng","",""],["醒來","VH","",""],[",","COMMACATEGORY","",""]],
         [["臉","Na","",""],["上","Ncd","",""],["濕涼","VH","",""],["的","DE","",""],["騷動","Nv","",""],["是","SHI","",""],["淚","Na","",""],["。","PERIODCATEGORY","",""]]]
      

如何获得理智

  • 在项目根目录(与设置.py)在

    ^{pr2}$ 在
  • 示例可以在示例文件夹下找到

确认

我们感谢陈宝文(b05902117@ntu.edu.tw)和Yu Yu Wu(b06902104@ntu.edu.tw)在模型开发方面的贡献。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java允许具有不同父类的类扩展类,而无需多重继承   java如何创建动态化的JScrollPane w/JPanel作为客户端?   java如何组织和命名包   在Java中读取属性文件   java无法解释的Android意图行为   在Java中动态执行多个BPEL文件的部署   ssl Java 6 SNI(服务器名称指示)?   java我们可以使用Robot框架自动化web和移动应用程序来执行并行执行   java for star pettern的循环   java为什么BinaryReader在线程中,从netty读取错误的数据包?   在java中将华氏度转换为摄氏度   使用Spark和java处理空值和引号编写CSV文件   Java中已排序日期到块的列表   visual studio代码VSCode Java不是linting或自动完成局部变量,而是自动完成Java快捷方式,如“sysout”