科技文献的文本特征抽取研究与应用

被引:0
作者
于亮
机构
[1] 北京邮电大学
关键词
信息抽取; 科技文献; 文本特征; 条件随机场;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
科技文献是科研成果的重要体现,是从事科研工作的重要参考和学习资料。对海量科技文献进行自动化处理,抽取重要信息,对于科技文献的计算机检索、文献库建设和管理、新知识的发现有着重要的意义。目前,对于科技文献的计算机处理主要涉及到主题词的提取、文本聚类、利用主题词进行知识发现等几个领域。在处理中,对特征词进行抽取,用合理的方法对科技文献进行表示是对科技文献进行进一步处理的基础。目前,对文本特征进行抽取还没有一个统一的、得到广泛认可的方法,尤其是对科技文献的文本特征抽取。 针对科技文献的特点和文本表示方式,本文主要完成了以下工作: (1)详细分析了信息抽取和文本特征抽取的主要方法,在总结方法的基础上,分析了各自的优点和局限性; (2)详细分析了科技文献的文本结构,以车牌识别领域的科技文献为基础,分析了科技文献中各个文本块的信息分布情况; (3)详细分析了科技文献的文本表示方式,重点分析了科技文献中影响候选特征的各个因素,并对各个影响因素进行量化,建立CRF模型进行处理; (4)引入CRF模型对科技文献的文本块进行了标注,并对各个文本块进行了特征抽取,重点介绍了用CRF模型对标题中的特征进行抽取和对候选特征进行重要性排序的方法; (5)提出了科技文献文本特征抽取实验的改进方法和应用。
引用
收藏
页数:58
共 13 条
[1]
应用主题词/副主题词关联规则对专题知识的挖掘分析及评价 [J].
侯跃芳 ;
崔雷 ;
朱利娜 .
情报理论与实践, 2008, (02) :234-236
[2]
基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[3]
基于主题词对的文档重排方法 [J].
何婷婷 ;
许婷 ;
瞿国忠 ;
涂新辉 .
计算机工程与应用, 2007, (11) :161-163
[4]
领域术语自动抽取及其在文本分类中的应用 [J].
刘桃 ;
刘秉权 ;
徐志明 ;
王晓龙 .
电子学报, 2007, (02) :328-332
[5]
构建主题词系统在中国专利信息化战略中的作用 [J].
章洪流 ;
向磊 .
中国发明与专利, 2006, (11) :49-51
[6]
关键词抽取方法的研究 [J].
郑家恒 ;
卢娇丽 .
计算机工程, 2005, (18) :194-196
[7]
中文全文检索系统中实现主题词标引思路 [J].
吴春玉 .
情报杂志 , 2005, (01) :115-116+119
[8]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[9]
中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01)
[10]
主题词分析法进行非相关文献知识发现的探索(Ⅰ)——模拟Swanson的知识发现过程.[J].郝丽云;郭启煜;.情报学报.2007, 05