博客语料的新词发现方法

被引:35
作者
黄轩 [1 ,2 ]
李熔烽 [2 ]
机构
[1] 厦门大学智能科学与技术系
[2] 漳州职业技术学院经济管理系
关键词
新词; 词串统计; 上下文分析; 分词; 候选词;
D O I
10.16652/j.issn.1004-373x.2013.02.036
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。
引用
收藏
页码:144 / 146+149 +149
页数:4
相关论文
共 8 条
[1]
基于词内部模式的新词识别 [J].
林自芳 ;
蒋秀凤 .
计算机与现代化, 2010, (11) :162-164+167
[2]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[3]
不限领域的中文新词的识别研究 [J].
韩艳 ;
姚建民 ;
朱巧明 ;
张晶 .
郑州大学学报(理学版), 2008, (03) :67-71
[4]
一种基于大规模语料的新词识别方法 [J].
贺敏 ;
龚才春 ;
张华平 ;
程学旗 .
计算机工程与应用 , 2007, (21) :157-159
[5]
基于大规模语料的新词语识别方法 [J].
施水才 ;
俞鸿魁 ;
吕学强 ;
李渝勤 .
山东大学学报(理学版), 2006, (03) :43-45
[6]
基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[7]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[8]
基于概率统计技术和规则方法的新词发现 [J].
贾自艳 ;
史忠植 .
计算机工程, 2004, (20) :19-21+83