一种基于TFIDF的网络聊天关键词提取算法

被引:14
作者
许晓昕
李安贵
机构
[1] 北京科技大学应用科学学院数力系
关键词
TFIDF; 文本挖掘; 即时通讯软件; 关键词提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。
引用
收藏
页码:122 / 123+222 +222
页数:3
相关论文
共 2 条
[1]   用于文本挖掘的特征选择方法TFIDF及其改进 [J].
景丽萍 ;
黄厚宽 ;
石洪波 .
广西师范大学学报(自然科学版), 2003, (01) :142-145
[2]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101