TML:一种通用高效的文本挖掘语言

被引:4
作者
李佳静 [1 ,2 ]
李晓明 [3 ]
孟涛 [2 ]
机构
[1] 中国矿业大学(北京)机电与信息工程学院
[2] 南京网感至察信息科技有限公司
[3] 北京大学信息科学技术学院
关键词
文本挖掘; 信息抽取; 编程语言; 编译器; 虚拟机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
实现了一种通用高效的文本挖掘编程语言,包括其编译器、运行虚拟机和图形开发环境.其工作方式是用户通过编写该语言的代码以定制抽取目标和抽取手段,然后将用户代码编译成字节码并进行优化,再将其与输入文本语义结构做匹配.该语言具有如下特点:1)提供了一种描述文本挖掘的范围、目标和手段的形式化方法,从而能通过编写该语言的代码来在不同应用领域做声明式文本挖掘;2)运行虚拟机以信息抽取技术为核心,高效地实现了多种常用文本挖掘技术,并将其组成一个文本分析流水线;3)通过一系列编译优化技术使得大量匹配指令能够充分并发执行,从而解决了该语言在处理海量规则和海量数据上的执行效率问题.实用案例说明了TML语言的描述能力以及它的实际应用情况.
引用
收藏
页码:553 / 560
页数:8
相关论文
共 4 条
[1]   面向中文自然语言文档的自动知识抽取方法 [J].
车海燕 ;
冯铁 ;
张家晨 ;
陈伟 ;
李大利 .
计算机研究与发展, 2013, (04) :834-842
[2]  
Learning ( k , l )-contextual tree languages for information extraction from web pages[J] . Stefan Raeymaekers,Maurice Bruynooghe,Jan Bussche.Machine Learning . 2008 (2)
[3]  
Finite-state transducer cascades to extract named entities in texts[J] . N. Friburger,D. Maurel.Theoretical Computer Science . 2003 (1)
[4]  
Efficient string matching[J] . Alfred V. Aho,Margaret J. Corasick.Communications of the ACM . 1975 (6)