共 12 条
一种快速获取领域新词语的新方法
被引:13
作者:
刘华
机构:
[1] 暨南大学华文学院
来源:
关键词:
人工智能;
自然语言处理;
新词语;
识别;
聚类;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
本文提出一种新词语识别新方法。该方法直接抽取分类网页上人工标引的关键词,并按照其网页栏目所属类目存储进各分类词表,从而快速完成新词语识别和聚类任务。该方法简单快捷。我们利用该方法从15类6亿字网页中抽取到229237个词条,其中新词语175187个,新词率为76.42%,其中游戏类新词率最高,时政_社会类新词率最低。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。
引用
收藏
页码:17 / 23
页数:7
相关论文