中文专利权利要求书分词算法研究

被引:5
作者
翟东升
马文姗
机构
[1] 北京工业大学经济与管理学院
关键词
中文分词; 领域词典; 中文权利要求书;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理。本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明。该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好。
引用
收藏
页码:152 / 155
页数:4
相关论文
共 4 条
[1]  
审查指南.[M].中华人民共和国国家知识产权局[编];.知识产权出版社.2006,
[2]   Chinese word segmentation as morpheme-based lexical chunking [J].
Fu, Guohong ;
Kit, Chunyu ;
Webster, Jonathan J. .
INFORMATION SCIENCES, 2008, 178 (09) :2282-2296
[3]  
词典与统计相结合的中文分词的研究.[D].岳中原.武汉理工大学.2010, 12
[4]   面向专利文献的中文分词技术的研究 [J].
张桂平 ;
刘东生 ;
尹宝生 ;
徐立军 ;
苗雪雷 .
中文信息学报, 2010, (03) :112-116