机器学习在图书馆应用初探:以TensorFlow为例

被引:27
作者
郭利敏
刘炜
吴佩娟
张磊
机构
[1] 上海图书馆
关键词
智慧图书馆; 人工智能; 机器学习; TensorFlow; 自动分类; 神经网络;
D O I
10.16603/j.issn1002-1027.2017.06.004
中图分类号
G250.7 [图书馆自动化、网络化];
学科分类号
摘要
机器学习是人工智能的重要分支,TensorFlow是谷歌第二代开源人工智能机器学习平台。此文重点介绍机器学习(主要是深度神经网络)的基本原理和利用TensorFlow进行机器学习的基本方法,探讨在图书馆领域应用的可能和场景。以《全国报刊索引》的自动分类问题作为实验对象,利用两台图形工作站,建立了TensorFlow深度学习模型,通过设定参数和阈值、系统调优等工作,实践了应用TensorFlow的完整过程,论证了其可行性。实验通过对170万余条题录数据进行训练和测试,克服了报刊索引数据过于简单与中国图书馆分类法的类目过于细致之间的矛盾,实现了大类近80%和四级分类总体近70%的准确率(其中TP类达到91%),得出基本可代替人工分类流程的结论,为全国报刊索引的分类流程的半自动化提供有力工具,从而可望大大节省人力成本。下一步将继续利用TensorFlow的优化功能,结合更多的字段属性,进行系统调优,力争做到自动分类90%以上的准确率。
引用
收藏
页码:31 / 40
页数:10
相关论文
共 12 条