学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于单字特征和搜索引擎的新词识别
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
苏宁
论文数:
引用数:
h-index:
机构:
惠子敬
论文数:
引用数:
h-index:
机构:
刘娟
机构
:
[1]
武汉大学计算机学院
来源
:
武汉大学学报(理学版)
|
2010年
/ 56卷
/ 06期
关键词
:
新词识别;
单字词;
临界词;
搭配抽取;
搜索引擎;
D O I
:
10.14188/j.1671-8836.2010.06.013
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.
引用
收藏
页码:704 / 710
页数:7
相关论文
共 7 条
[1]
多策略融合的搭配抽取方法
[J].
王大亮
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
王大亮
;
论文数:
引用数:
h-index:
机构:
涂序彦
;
论文数:
引用数:
h-index:
机构:
郑雪峰
;
佟子健
论文数:
0
引用数:
0
h-index:
0
机构:
搜狐研发中心
北京科技大学信息工程学院
佟子健
.
清华大学学报(自然科学版),
2008,
(04)
:608
-612
[2]
自动获取汉语词语搭配
[J].
论文数:
引用数:
h-index:
机构:
王素格
;
论文数:
引用数:
h-index:
机构:
杨军玲
;
张武
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学计算机工程与科学学院
上海大学计算机工程与科学学院
张武
.
中文信息学报,
2006,
(06)
:31
-37
[3]
基于大规模语料库的新词检测
[J].
论文数:
引用数:
h-index:
机构:
崔世起
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[4]
面向信息检索的自适应中文分词系统
[J].
曹勇刚
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹勇刚
;
曹羽中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹羽中
;
论文数:
引用数:
h-index:
机构:
金茂忠
;
论文数:
引用数:
h-index:
机构:
刘超
.
软件学报,
2006,
(03)
:356
-363
[5]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[6]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[7]
基于构词法的网络新词自动识别初探
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
.
山西大学学报(自然科学版),
2002,
(02)
:115
-119
←
1
→
共 7 条
[1]
多策略融合的搭配抽取方法
[J].
王大亮
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
王大亮
;
论文数:
引用数:
h-index:
机构:
涂序彦
;
论文数:
引用数:
h-index:
机构:
郑雪峰
;
佟子健
论文数:
0
引用数:
0
h-index:
0
机构:
搜狐研发中心
北京科技大学信息工程学院
佟子健
.
清华大学学报(自然科学版),
2008,
(04)
:608
-612
[2]
自动获取汉语词语搭配
[J].
论文数:
引用数:
h-index:
机构:
王素格
;
论文数:
引用数:
h-index:
机构:
杨军玲
;
张武
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学计算机工程与科学学院
上海大学计算机工程与科学学院
张武
.
中文信息学报,
2006,
(06)
:31
-37
[3]
基于大规模语料库的新词检测
[J].
论文数:
引用数:
h-index:
机构:
崔世起
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[4]
面向信息检索的自适应中文分词系统
[J].
曹勇刚
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹勇刚
;
曹羽中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹羽中
;
论文数:
引用数:
h-index:
机构:
金茂忠
;
论文数:
引用数:
h-index:
机构:
刘超
.
软件学报,
2006,
(03)
:356
-363
[5]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[6]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[7]
基于构词法的网络新词自动识别初探
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
.
山西大学学报(自然科学版),
2002,
(02)
:115
-119
←
1
→