短文本信息流的无监督会话抽取技术

被引:14
作者
黄九鸣 [1 ]
吴泉源 [1 ]
刘春阳 [2 ]
张旭 [2 ]
贾焰 [1 ]
周斌 [1 ]
机构
[1] 国防科学技术大学计算机学院
[2] 国家计算机网络应急技术处理协调中心
关键词
会话抽取; 短文本; 短文本信息流; 无监督; 时序特征; 上下文相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%.
引用
收藏
页码:735 / 747
页数:13
相关论文
共 2 条
[1]   中文网络聊天语言的奇异性与动态性研究 [J].
夏云庆 ;
黄锦辉 ;
张普 .
中文信息学报, 2007, (03) :83-91
[2]   Conversation Extraction in Dynamic Text Message Stream [J].
Wang, Le ;
Jia, Yan ;
Chen, Yingwen .
JOURNAL OF COMPUTERS, 2008, 3 (10) :86-93