汉语语体的计量特征在文本聚类中的应用

被引:31
作者
黄伟 [1 ,2 ]
刘海涛 [2 ]
机构
[1] 不详
[2] 北京语言大学汉语水平考试中心
[3] 不详
[4] 中国传媒大学应用语言学研究所
[5] 不详
关键词
文本聚类; 语体特征; 语言结构; 汉语口语; 汉语书面语;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础。
引用
收藏
页码:25 / 27+33 +33
页数:4
相关论文
共 10 条
[1]   改进的χ2统计文本特征选择方法 [J].
肖婷 ;
唐雁 .
计算机工程与应用, 2009, 45 (14) :136-137+140
[2]   基于概念的文本表示模型 [J].
陈龙 ;
范瑞霞 ;
高琪 .
计算机工程与应用, 2008, (20) :162-164
[3]   基于互信息的文本特征选择方法研究与改进 [J].
刘健 ;
张维明 .
计算机工程与应用 , 2008, (10) :135-137
[4]   使用特征词的统计分布信息进行文本分类 [J].
邓擘 ;
樊孝忠 .
计算机工程与应用 , 2006, (32) :147-149
[5]   基于Bigram的特征词抽取及自动分类方法研究 [J].
王笑旻 .
计算机工程与应用, 2005, (22) :177-179+210
[6]   现代汉语口语词和书面语词的差异初探 [J].
曹炜 .
语言教学与研究, 2003, (06) :39-44
[7]  
基于概念的文本表示模型的研究[D]. 张剑.清华大学. 2006
[8]  
论新闻语体[D]. 郝会丽.中国社会科学院研究生院. 2001
[9]  
信息检索理论与技术[M]. 科学技术文献出版社 , 苏新宁主编, 2004
[10]  
汉语口语[M]. 北京出版社 , 陈建民 著, 1984