一种快速获取领域新词语的新方法

被引:13
作者
刘华
机构
[1] 暨南大学华文学院
关键词
人工智能; 自然语言处理; 新词语; 识别; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出一种新词语识别新方法。该方法直接抽取分类网页上人工标引的关键词,并按照其网页栏目所属类目存储进各分类词表,从而快速完成新词语识别和聚类任务。该方法简单快捷。我们利用该方法从15类6亿字网页中抽取到229237个词条,其中新词语175187个,新词率为76.42%,其中游戏类新词率最高,时政_社会类新词率最低。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。
引用
收藏
页码:17 / 23
页数:7
相关论文
共 12 条
[1]   基于概率统计技术和规则方法的新词发现 [J].
贾自艳 ;
史忠植 .
计算机工程, 2004, (20) :19-21+83
[2]   基于标记的规则统计模型与未登录词识别算法 [J].
苏菲 ;
王丹力 ;
戴国忠 .
计算机工程与应用, 2004, (15) :43-45+91
[3]   统计与规则结合的一种新词识别方法 [J].
聂颂 ;
何丕廉 ;
孙越恒 .
微型机与应用, 2003, (10) :58-60
[4]   基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14
[5]   基于语料的动态获取专业词汇方法初探 [J].
郑家恒 ;
杜永萍 ;
刘昌钰 .
计算机工程, 2002, (05) :64-66
[6]   一种中文文档的非受限无词典抽词方法 [J].
金翔宇 ;
孙正兴 ;
张福炎 .
中文信息学报, 2001, (06) :33-39
[7]   一种新的基于统计的词典扩展方法 [J].
周正宇 ;
李宗葛 .
中文信息学报, 2001, (05) :46-51
[8]   基于统计方法的中文姓名识别 [J].
刘秉伟 ;
黄萱菁 ;
郭以昆 ;
吴立德 .
中文信息学报, 2000, (03) :16-24+36
[9]   基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12
[10]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27