基于无监督学习的专业领域分词歧义消解方法

被引:14
作者
修驰 [1 ]
宋柔 [1 ,2 ]
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学信息科学学院
关键词
专业领域分词; 分词歧义; 字符串频次; 互信息; 边界熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
引用
收藏
页码:780 / 783
页数:4
相关论文
共 6 条
[1]
基于“固结词串”实例的中文分词研究 [J].
修驰 ;
宋柔 .
中文信息学报, 2012, (03) :59-64
[2]
基于多特征的自适应新词识别 [J].
罗智勇 ;
宋柔 .
北京工业大学学报, 2007, (07) :718-725
[3]
现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[4]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[5]
基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[6]
书面汉语自动分词专家系统设计原理 [J].
何克抗 ;
徐辉 ;
孙波 .
中文信息学报, 1991, (02) :1-14+28