博客语料的新词发现方法

被引：35

作者：

黄轩 ^{[1
,2
]}

李熔烽 ^{[2
]}

机构：

[1] 厦门大学智能科学与技术系

[2] 漳州职业技术学院经济管理系

来源：

现代电子技术 | 2013年 / 36卷 / 02期

关键词：

新词; 词串统计; 上下文分析; 分词; 候选词;

D O I：

10.16652/j.issn.1004-373x.2013.02.036

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。

引用

页码：144 / 146+149 +149

页数：4

共 8 条

[1]

基于词内部模式的新词识别 [J].