面向专利文献的中文分词技术的研究

被引：16

作者：

张桂平

刘东生

尹宝生

徐立军

苗雪雷

机构：

[1] 沈阳航空工业学院知识工程中心

来源：

中文信息学报 | 2010年 / 03期

关键词：

计算机应用; 中文信息处理; 中文分词; 专利文献; 上下文信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。

引用

页码：112 / 116

页数：5

共 12 条

[1] 一种基于字词联合解码的中文分词方法 [J].