基于上下文关系的文本分类特征描述方法

被引:14
作者
何中市
刘里
机构
[1] 重庆大学计算机学院
关键词
特征描述; 文本分类; 向量空间模型; 权重计算;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。
引用
收藏
页码:183 / 186
页数:4
相关论文
共 4 条
[1]
基于特征有序对量化表示的文本分类方法 [J].
任纪生 ;
王作英 .
清华大学学报(自然科学版), 2006, (04) :527-529+533
[2]
文本挖掘研究进展 [J].
谌志群 ;
张国煊 .
模式识别与人工智能, 2005, 18 (01) :65-74
[3]
自然语言处理中词语上下文有效范围的定量描述 [J].
鲁松 ;
白硕 .
计算机学报, 2001, (07) :742-747
[4]
中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 ;
不详 .
中文信息学报 , 1998, (02)