基于单字特征和搜索引擎的新词识别

被引:4
作者
苏宁
惠子敬
刘娟
机构
[1] 武汉大学计算机学院
关键词
新词识别; 单字词; 临界词; 搭配抽取; 搜索引擎;
D O I
10.14188/j.1671-8836.2010.06.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.
引用
收藏
页码:704 / 710
页数:7
相关论文
共 7 条
[1]
多策略融合的搭配抽取方法 [J].
王大亮 ;
涂序彦 ;
郑雪峰 ;
佟子健 .
清华大学学报(自然科学版), 2008, (04) :608-612
[2]
自动获取汉语词语搭配 [J].
王素格 ;
杨军玲 ;
张武 .
中文信息学报, 2006, (06) :31-37
[3]
基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[4]
面向信息检索的自适应中文分词系统 [J].
曹勇刚 ;
曹羽中 ;
金茂忠 ;
刘超 .
软件学报, 2006, (03) :356-363
[5]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[6]
基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[7]
基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119