学术沙龙探讨使用有限训练数据进行深度学习

文:丁杨浩 图:丁杨浩 / 来源:计算机学院 / 2017-07-31 / 点击量:2429

  7月10日,由人力资源部教师发展中心主办,计算机科学与工程学院统计机器智能与学习实验室承办的学术沙龙在清水河校区经管楼宾诺咖啡厅举行。来自澳大利亚Data61/CSIRO的屈立真博士以“Deep Learning with Limited Training Data”为题,与我校师生共同探讨利用少量数据进行深度学习的心得体会。本次活动由计算机科学与工程学院“青年千人”入选者徐增林教授主持。

QQ图片20170731131233.png

  深度学习模型一般需要使用大量的人工标记的无噪声训练数据,但是由于创建训练数据集非常昂贵且耗时,很多行业的数据集实际上难以达到此要求,这给深度学习的一些研究造成了一定的困难。命名实体识别(NER)是自然语言处理领域的一个基本问题,在一些新领域的NER问题中,训练所需的语料库或知识库就往往不够大。

  屈立真博士介绍了一种迁移学习的方法,通过在传统的条件随机场(CRF)模型的基础上加入一个迁移层,将已有的训练集中的命名实体(NE)类型转换成目标领域的NE类型,大大减少了新的NE类型所需的训练数据。在关系抽取(RE)领域,使用小数据集训练的一些监督学习模型,如BiLSTM、TreeLSTM等等,往往取得较差的结果。屈博士提出了一种基于Seq2Seq模型的无监督预训练方法,通过最小化一种Seq2Seq损失,仅使用一半甚至四分之一的训练数据上就达到了未使用该预训练方法的模型同样的效果。此外,大型数据集的标签噪声是一个难以避免的问题,因为研究者们通常使用的大型数据集标注方法,如众包(Crowdsourcing)等等,往往会得到一些误标签的数据。这些标签噪声会影响模型训练的结果。误标签数据可以形成一个转换矩阵T,T中的元素分别表示不同类别的数据标记为其他类别的概率。屈立真博士介绍了两种不同的改进方法,一种是在损失矩阵前乘上T矩阵,另一种则是用神经网络的预测结果乘上T矩阵。本次报告中,屈立真博士回顾了他最近的几项工作,通过自然语言处理领域的一些实际应用讲解了如何使用有噪声或者较小的数据集训练深度神经网络。

  屈立真的报告深入浅出,清晰明了地向师生介绍了用有限的数据训练深度神经网络的一些方法,引起了老师和同学们的热烈讨论。


编辑:林坤  / 审核:林坤  / 发布者:林坤