基于条件随机场方法的开放领域新词发现

被引:43
作者
陈飞 [1 ,2 ,3 ]
刘奕群 [1 ,2 ,3 ]
魏超 [1 ,2 ,3 ]
张云亮 [3 ]
张敏 [1 ,2 ,3 ]
马少平 [1 ,2 ,3 ]
机构
[1] 智能技术与系统国家重点实验室(清华大学)
[2] 清华大学清华信息科学与技术国家实验室(清华大学)(筹)
[3] 清华大学计算机科学与技术系
关键词
新词发现; condition random field(CRF); 中文分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.
引用
收藏
页码:1051 / 1060
页数:10
相关论文
共 5 条
[1]   采用CRF技术的军事情报术语自动抽取研究 [J].
贾美英 ;
杨炳儒 ;
郑德权 ;
杨靖 .
计算机工程与应用 , 2009, (32) :126-129
[2]   SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[3]   用支持向量机进行中文地名识别的研究 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
小型微型计算机系统, 2005, (08) :1416-1419
[4]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[5]  
Unknown word detection and segmentation of Chinese using statistical and heuristic knowledge. Nie J Y,Hannan M L,Jin W Y. Communications of COLIPS . 1995