学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于延迟决策和斜率的新词识别方法
被引:7
作者
:
郭伟
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
郭伟
论文数:
引用数:
h-index:
机构:
陈蓉
论文数:
引用数:
h-index:
机构:
周伟
论文数:
引用数:
h-index:
机构:
熊伟
论文数:
引用数:
h-index:
机构:
于中华
机构
:
[1]
四川大学计算机学院
来源
:
四川大学学报(自然科学版)
|
2007年
/ 03期
基金
:
高等学校博士学科点专项科研基金;
关键词
:
索引;
新词识别;
加速度;
斜率;
中文分词;
互信息;
D O I
:
暂无
中图分类号
:
TP391.43 [];
学科分类号
:
摘要
:
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典.
引用
收藏
页码:517 / 520
页数:4
相关论文
共 5 条
[1]
基于词频统计的中文分词的研究
[J].
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
康松林
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
康松林
;
朱小娟
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
朱小娟
;
谢文彪
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
谢文彪
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
不详
.
计算机工程与应用 ,
2005,
(07)
:67
-68+100
[2]
一个中文新词识别特征的研究
[J].
秦浩伟
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海
秦浩伟
;
论文数:
引用数:
h-index:
机构:
步丰林
.
计算机工程,
2004,
(S1)
:369
-370+414
[3]
搜索引擎的混合索引技术
[J].
彭波
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系网络与分布式系统实验室 北京
彭波
.
计算机工程与应用 ,
2004,
(22)
:16
-18
[4]
汉语自动分词系统中切分歧义与未登录词的处理策略
[J].
论文数:
引用数:
h-index:
机构:
韩维良
.
青海师范大学学报(自然科学版),
2004,
(02)
:31
-34
[5]
基于决策树的汉语未登录词识别
[J].
秦文
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京
秦文
;
论文数:
引用数:
h-index:
机构:
苑春法
.
中文信息学报,
2004,
(01)
:14
-19
←
1
→
共 5 条
[1]
基于词频统计的中文分词的研究
[J].
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
康松林
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
康松林
;
朱小娟
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
朱小娟
;
谢文彪
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
谢文彪
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
不详
.
计算机工程与应用 ,
2005,
(07)
:67
-68+100
[2]
一个中文新词识别特征的研究
[J].
秦浩伟
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海
秦浩伟
;
论文数:
引用数:
h-index:
机构:
步丰林
.
计算机工程,
2004,
(S1)
:369
-370+414
[3]
搜索引擎的混合索引技术
[J].
彭波
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系网络与分布式系统实验室 北京
彭波
.
计算机工程与应用 ,
2004,
(22)
:16
-18
[4]
汉语自动分词系统中切分歧义与未登录词的处理策略
[J].
论文数:
引用数:
h-index:
机构:
韩维良
.
青海师范大学学报(自然科学版),
2004,
(02)
:31
-34
[5]
基于决策树的汉语未登录词识别
[J].
秦文
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京
秦文
;
论文数:
引用数:
h-index:
机构:
苑春法
.
中文信息学报,
2004,
(01)
:14
-19
←
1
→