学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
中文搜索引擎中的分词技术研究
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
房志峰
机构
:
[1]
山东政法学院信息科学技术系
来源
:
科学技术与工程
|
2008年
/ 09期
关键词
:
中文分词;
未登录词识别;
最短路径;
共首字歧义词概率;
窗口移动法;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
摘要
:
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显。对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词。
引用
收藏
页码:2481 / 2483+2506 +2506
页数:4
相关论文
共 5 条
[1]
统计与规则结合的一种新词识别方法
[J].
聂颂
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
聂颂
;
何丕廉
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
何丕廉
;
孙越恒
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
孙越恒
.
微型机与应用,
2003,
(10)
:58
-60
[2]
基于WWW的未登录词识别研究
[J].
韩洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
韩洁
;
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
周勇
;
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
刘少辉
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
史忠植
.
计算机科学,
2002,
(12)
:155
-156
[3]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
论文数:
引用数:
h-index:
机构:
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[4]
计算语言学.[M].刘颖编著;.清华大学出版社.2002,
[5]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
←
1
→
共 5 条
[1]
统计与规则结合的一种新词识别方法
[J].
聂颂
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
聂颂
;
何丕廉
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
何丕廉
;
孙越恒
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学计算机科学与技术系
孙越恒
.
微型机与应用,
2003,
(10)
:58
-60
[2]
基于WWW的未登录词识别研究
[J].
韩洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
韩洁
;
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
周勇
;
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
刘少辉
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
史忠植
.
计算机科学,
2002,
(12)
:155
-156
[3]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
论文数:
引用数:
h-index:
机构:
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[4]
计算语言学.[M].刘颖编著;.清华大学出版社.2002,
[5]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
←
1
→