基于语义的文本流形研究

被引:21
作者
杨震 [1 ]
范科峰 [2 ,3 ]
雷建军 [4 ]
郭军 [5 ]
机构
[1] 北京工业大学计算机学院
[2] 北京邮电大学网络与交换国家重点实验室信息安全中心
[3] 中国电子技术标准化研究所
[4] 天津大学电子信息工程学院
[5] 北京邮电大学信息与通信工程学院
基金
高等学校博士学科点专项科研基金;
关键词
语义距离; 流形学习; 词汇分布; 短信聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
本文通过引入包括Isomap流形降维、查询语义词典(WordNet)等高度非线性的方法,期望将文本信息处理领域长期专注于"语法"层次的研究,演进到"语义"的层次.利用流形学习工具研究了中文词汇在语义空间(分类空间)的分布聚集情况,通过利用WordNet词典进行了短信聚类的研究.实验结果表明,本文的方法能够更好地反映文本之间的内在联系.
引用
收藏
页码:557 / 561
页数:5
相关论文
共 1 条
[1]
Laplacian eigenmaps for dimensionality reduction and data representation [J].
Belkin, M ;
Niyogi, P .
NEURAL COMPUTATION, 2003, 15 (06) :1373-1396