学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
面向专利文献的中文分词技术的研究
被引:16
作者
:
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
张桂平
刘东生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
刘东生
尹宝生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
尹宝生
徐立军
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
徐立军
苗雪雷
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
苗雪雷
机构
:
[1]
沈阳航空工业学院知识工程中心
来源
:
中文信息学报
|
2010年
/ 03期
关键词
:
计算机应用;
中文信息处理;
中文分词;
专利文献;
上下文信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。
引用
收藏
页码:112 / 116
页数:5
相关论文
共 12 条
[1]
一种基于字词联合解码的中文分词方法
[J].
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
宋彦
;
蔡东风
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
蔡东风
;
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
张桂平
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文、翻译及语言学系
沈阳航空工业学院知识工程中心
赵海
.
软件学报,
2009,
20
(09)
:2366
-2375
[2]
中文分词十年回顾
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
微软亚洲研究院
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[3]
汉语自动分词的研究现状与困难
[J].
张春霞
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张春霞
;
郝天永
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郝天永
.
系统仿真学报,
2005,
(01)
:138
-143+147
[4]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[5]
统计语言模型能做什么?
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院北京
黄昌宁
.
语言文字应用,
2002,
(01)
:77
-84
[6]
提高汉语自动分词精度的多步处理策略
[J].
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院!哈尔滨
赵铁军
;
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
于浩
;
杨沐昀
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院!哈尔滨
杨沐昀
;
论文数:
引用数:
h-index:
机构:
刘芳
.
中文信息学报,
2001,
(01)
:13
-18
[7]
最大概率分词问题及其解法
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
王开铸
.
哈尔滨工业大学学报,
1998,
(06)
:37
-41
[8]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系
王开铸
.
中文信息学报,
1998,
(01)
:18
-26
[9]
汉语自动分词和词性标注一体化系统
[J].
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
沈达阳
;
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
孙茂松
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
黄昌宁
.
中文信息,
1996,
(05)
:17
-19
[10]
专利信息采集与分析[M]. 清华大学出版社 , 陈燕, 2006
←
1
2
→
共 12 条
[1]
一种基于字词联合解码的中文分词方法
[J].
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
宋彦
;
蔡东风
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
蔡东风
;
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
张桂平
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文、翻译及语言学系
沈阳航空工业学院知识工程中心
赵海
.
软件学报,
2009,
20
(09)
:2366
-2375
[2]
中文分词十年回顾
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
微软亚洲研究院
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[3]
汉语自动分词的研究现状与困难
[J].
张春霞
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张春霞
;
郝天永
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郝天永
.
系统仿真学报,
2005,
(01)
:138
-143+147
[4]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[5]
统计语言模型能做什么?
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院北京
黄昌宁
.
语言文字应用,
2002,
(01)
:77
-84
[6]
提高汉语自动分词精度的多步处理策略
[J].
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院!哈尔滨
赵铁军
;
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
于浩
;
杨沐昀
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院!哈尔滨
杨沐昀
;
论文数:
引用数:
h-index:
机构:
刘芳
.
中文信息学报,
2001,
(01)
:13
-18
[7]
最大概率分词问题及其解法
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
王开铸
.
哈尔滨工业大学学报,
1998,
(06)
:37
-41
[8]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系
王开铸
.
中文信息学报,
1998,
(01)
:18
-26
[9]
汉语自动分词和词性标注一体化系统
[J].
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
沈达阳
;
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
孙茂松
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系
黄昌宁
.
中文信息,
1996,
(05)
:17
-19
[10]
专利信息采集与分析[M]. 清华大学出版社 , 陈燕, 2006
←
1
2
→