一种快速获取领域新词语的新方法

被引：13

作者：

刘华

机构：

[1] 暨南大学华文学院

来源：

中文信息学报 | 2006年 / 05期

关键词：

人工智能; 自然语言处理; 新词语; 识别; 聚类;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

本文提出一种新词语识别新方法。该方法直接抽取分类网页上人工标引的关键词,并按照其网页栏目所属类目存储进各分类词表,从而快速完成新词语识别和聚类任务。该方法简单快捷。我们利用该方法从15类6亿字网页中抽取到229237个词条,其中新词语175187个,新词率为76.42%,其中游戏类新词率最高,时政_社会类新词率最低。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。

引用

页码：17 / 23

页数：7

共 12 条

[1] 基于概率统计技术和规则方法的新词发现 [J].