面向专利文献的中文分词技术的研究

被引:16
作者
张桂平
刘东生
尹宝生
徐立军
苗雪雷
机构
[1] 沈阳航空工业学院知识工程中心
关键词
计算机应用; 中文信息处理; 中文分词; 专利文献; 上下文信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。
引用
收藏
页码:112 / 116
页数:5
相关论文
共 12 条
[1]   一种基于字词联合解码的中文分词方法 [J].
宋彦 ;
蔡东风 ;
张桂平 ;
赵海 .
软件学报, 2009, 20 (09) :2366-2375
[2]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[3]   汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[4]   基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[5]   统计语言模型能做什么? [J].
黄昌宁 .
语言文字应用, 2002, (01) :77-84
[6]   提高汉语自动分词精度的多步处理策略 [J].
赵铁军 ;
吕雅娟 ;
于浩 ;
杨沐昀 ;
刘芳 .
中文信息学报, 2001, (01) :13-18
[7]   最大概率分词问题及其解法 [J].
刘挺 ;
吴岩 ;
王开铸 .
哈尔滨工业大学学报, 1998, (06) :37-41
[8]   串频统计和词形匹配相结合的汉语自动分词系统 [J].
刘挺 ;
吴岩 ;
王开铸 .
中文信息学报, 1998, (01) :18-26
[9]   汉语自动分词和词性标注一体化系统 [J].
沈达阳 ;
孙茂松 ;
黄昌宁 .
中文信息, 1996, (05) :17-19
[10]  
专利信息采集与分析[M]. 清华大学出版社 , 陈燕, 2006