短文本语言计算的关键技术研究

被引:0
作者
龚才春
机构
[1] 中国科学院研究生院(计算技术研究所)
关键词
短文本; 语言计算; 冗余检测; 频繁模式; 有意义串; 幽默识别; 幽默短信;
D O I
暂无
年度学位
2008
学位类型
博士
导师
摘要
伴随着信息时代的到来,我国互联网事业和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为我国各阶层普遍接受的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活习惯。短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。 短文本伴随着Web2.0的兴起而逐步引起研究者的注意,目前短文本语言计算的研究方兴未艾。短文本独特的语言特征导致其语言计算不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算更高的效率要求;短文本表达简洁,错误拼写、不规范用语和噪音比较多,给短文本语言计算带来了更大挑战。针对短文本的特点,本文对短文本语言计算的若干关键技术进行了研究,主要包括短文本的冗余检测、短文本的有意义串发现和幽默短信的识别等。本文的主要研究成果包括: 首先,本文提出了短文本网络的概念,给出了两种常见的短文本网络的构建算法,这两种短文本网络分别为短文本指纹网络和短文本共现网络。通过构建短文本指纹网络实现了短文本语料的快速精确去重;通过构建短文本共现网络实现了短文本语料的快速近似去重。通过构建相应短文本网络,将短文本冗余检测问题转换为无向图的连通分支查找问题。本文还发现近似冗余短文本之间共现的一般是那些具有较高区分能力的词语,两条近似冗余短文本一般只是连词、代词、数词、标点符号等的使用不同,冗余传递性也是短文本语料特有的性质。本文提出的SimFinder冗余检测算法就是利用短文本语料的这些特性,进一步提高短文本网络挖掘的速度,从而提高短文本冗余检测的速度。 再次,本文提出了一种大规模语料频繁模式发现算法──Crusher。Crusher提出了一种大规模语料的划分策略,将待发现频繁模式的原始语料划分为若干子语料。Crusher对每个子语料独立发现其频繁模式结果,并能保证对各子语料发现的频繁模式结果的并集即为原始语料的频繁模式集。Crusher能够避免处理低频模式,从而大大提高频繁模式发现的速度。本文还提出了有意义串的局部性原理。有意义串的局部性原理包括时间局部性、空间局部性、地域局部性、说话人局部性和会话局部性等。本文将局部性原理应用于有意义串发现,先使用Crusher算法发现若干候选有意义串,并记录各候选有意义串的出现位置,依据其出现位置计算各候选有意义串的局部性,AV值差不多的两个候选有意义串,局部性较好的更有可能为有意义串。局部性原理的应用能够更好地发现频次不是非常高的有意义串,从而提高了有意义串发现算法的准确率和召回率。 最后,本文对人们熟悉的幽默手机短信的识别进行了若干探索,将幽默手机短信分为形式幽默和内容幽默两种,并对每一条短信分别计算排比指数、对联指数、押韵指数、内容幽默指数等,并综合计算其最终的幽默指数。实验表明,本文提出的幽默指数的计算方法总体上能够反映短信息的幽默程度,人工检验的结果表明,幽默手机短信的识别准确率能够满足实用需要,对短信关联的幽默指数也能够一定程度上反映短信的幽默程度。
引用
收藏
页数:117
共 57 条
[1]
基于布尔模型的网页查重算法研究 [D]. 
连浩 .
中国科学院研究生院(计算技术研究所),
2006
[2]
基于伪相关反馈模型的领域词典生成算法 [J].
黄玉兰 ;
龚才春 ;
许洪波 ;
程学旗 .
中文信息学报, 2008, (01) :111-115
[3]
大规模语料的频繁模式快速发现算法 [J].
龚才春 ;
贺敏 ;
陈海强 ;
许洪波 ;
程学旗 .
通信学报, 2007, (12) :161-166
[4]
一种基于大规模语料的新词识别方法 [J].
贺敏 ;
龚才春 ;
张华平 ;
程学旗 .
计算机工程与应用 , 2007, (21) :157-159
[5]
手机短信语言的音乐美 [J].
杨城 .
湖南第一师范学报, 2007, (02) :123-125
[6]
[7]
试析趣味手机文本短信的文体特征 [J].
王华丽 .
科技信息(学术研究), 2007, (11) :133-134
[8]
工具·修辞·权力——手机短信的功能符号形态演进探析 [J].
曾宏伟 .
江淮论坛, 2007, (01) :116-119+188
[9]
手机短信中的修辞艺术 [J].
黎海情 .
南昌高专学报, 2007, (01) :45-47
[10]
短信息语言的仿拟艺术 [J].
田晓荣 .
陕西理工学院学报(社会科学版), 2007, (01) :21-25