客服电话:15682930301

计算机网络论文

当前位置: 毕业论文>计算机论文>计算机网络论文 > 正文

多语言图像标题自动生成研究

发布时间:2019-12-10 20:46文字数:11789字

  摘 要:自动描述图像的内容是结合了计算机视觉和自然语言处理的人工智能的一个基本问题。而机器翻译(又称自动翻译)是利用计算机将一种自然语言转换为另一种自然语言的过程,是人工智能的一大终极目标。若将两者结合利用,必将具有重要的实用价值。

  Show and tell模型是Google Brain在TensorFlow上开源的一个自动图像描述系统,采用Encoder-Decoder(编码器-解码器)的神经网络架构,可以根据图像中的场景自动生成相应的描述。本文将深入分析Show and tell模型和相关基于Show and tell模型的改进技术以及神经机器翻译的相关技术,并且对比各类技术的优缺点。本文通过该系统实现Image Caption(自动图像描述),并通过神经机器翻译的方法Transformer将得到的描述翻译为中文,使其适用于中文环境。最后对所采用的Transformer方法与Google机器翻译方法进行性能评价。

  关键词:自动图像描述;机器翻译;翻译方法;模型

  前 言

  Image Caption技术(即自动描述图像内容技术,也称图像标注),指的就是从给定图片中自动生成一段能够描述其内容的文字,有点类似于我们小学里学的“看图说话”。对于人类来说,这是一件简单并且每天都在做的事,然而对于计算机来说,这是一件非常具有挑战性的任务。原因在于计算机面对的不是人们眼睛所看到的景象,而是一个像素矩阵。计算机不仅要在一堆数字中检测出图像中的物体,而且还要理解各个物体之间的相互关系,最终需要用一段文字将一切表述出来。

  Machine Translation技术(即机器翻译技术),顾名思义,就是利用机器来进行翻译的技术,用于不同语言文字之间的转换。

  60年来,机器翻译技术不断发展,从最早的词典匹配、到基于词典和语言学知识的规则翻译、再到基于短语的统计机器翻译,最后成长为当前基于人工神经网络的机器翻译。随着计算机计算性能的提升以及大数据时代多语言信息的爆炸式增长,机器翻译技术已渐渐完善,开始在人们的日常生活中扮演一个重要角色,为我们提供便捷的翻译服务。

  得益于神经机器翻译的迅速发展,看似困难的机器“看图说话”任务迎刃而解。在Image Caption任务中仅仅对神经机器翻译中模型做了简单的修改,便取得了很好的结果。

  本文主要以Google的基于TensorFlow的show and tell自动图像描述系统为研究对象,并与两种机器翻译方法相结合来完成多语言图像标题自动生成的研究。深入分析了show and tell模型,并对比相关后续先进技术;对比分析Google机器翻译与Transformer翻译方法,并进行实验验证。本文完成的主要工作及创新点有:

  (1)利用show and tell自动图像描述系统,实现从图片生成描述。

  (2)分析了Image Caption相关技术的特点。

  (3)利用Google机器翻译以及Transformer翻译方法进行英译中。

  (4)对给定语料进行人工标注,生成翻译参考语句。

  (5)对比Google机器翻译和Transformer翻译方法的模型架构,并通过实验验证其性能。最后得出图片和多语言描述的匹配度,并进行错误分析。

  第一章 绪 论

  本章首先介绍了多语言图像标题自动生成的研究背景和意义,其次简单介绍了show and tell自动图像描述系统,并概述了本文所做的主要工作和贡献以及创新点,在本章的最后介绍了论文的组织结构。

  1.1 研究背景和意义

  近年来,信息技术,人工智能不断发展,人们也通过科幻电影来对未来进行展望。电影《HER》就是一个例子,影片中的“萨曼莎”是一个AI系统,他能够理解主人公西奥多的手机信息和图像内容,了解主人公的状态,在其心情不好时可以陪他谈心,还可以读懂文字,“她”俨然成为了一个真实的人类,甚至在某些方法还更胜人类。

  电影的“萨曼莎”是人类幻想出来的人工智能,“她”能够思考,同时具备比人还强的智力以及运算能力,虽然目前的人工智能技术还不能完全像电影中一样强大,但近年来人工智能技术让机器具备了人来的能力,例如计算机已经能理解更高层次的图像内容,能够自动描述图像的内容。

  在人工智能领域,这是机器的 Image Captioning(自动图像描述)能力。

  在去年11月7日晚,锤子科技发布了坚果 Pro 2。这场发布会感动我的不是坚果Pro 2超高颜值的外观设计,亦或是极具良心的售价,而是锤子坚果Pro 2 新的 Smartisan OS系统,针对盲人用户做出的优化。锤子利用OCR识别技术,把普通手机APP 无法识别的内容通过 OCR 技术转成文字,再把文字通过扬声器读出来。这让许多视障者都能更好使用智能手机。根据2016年的数据显示,中国的盲人数量已经超过1400万,相当于每100个人中就有一个,但却因为无障碍设施的不友好,却很难在街头看到他们的身影。因此许多盲人都对手机、电脑等电子产品和网络有着更深的依赖,这几乎成了他们与外面的世界互动的唯一通道。我们相信如果能将自动图像描述技术与机器翻译结合,便能够让全球的视障人群便捷地读懂世界(不仅仅是有文字标注的世界)。

  自动图像描述技术的意义也不仅仅在于帮助视障人群,还能应用与我们的日常生活。当我们需要寻找一张时间久远的手机照片时,常常因为数量的庞大无从寻找。在这里,如果系统能够对每张照片都生成一个简单的标题(或是描述),那么我们只需要凭借图像的印象便能够轻松找到对应的照片。

  得益于近年来机器视觉和自然语言处理的发展以及自动图像描述领域中积累的大量研究,Google Brain基于TensorFlow 深度学习库开发了“Show and Tell”自动图像描述系统,成功地将机器这方面的能力提高到一个新台阶。作为多模态数据处理的经典,自动图像描述技术正逐步成为研究热点。

  1.2 show and tell自动图像描述系统简介

  Show and tell模型是一个深度神经网络,学习如何描述图像的内容。例如:

  运行步骤:

  (1) 硬件及训练时间提示

  NVIDIA Tesla K20m GPU- 1-2 weeks

  (2) 必要的安装包

  Bazel,TensorFlow1.0,NumPy,Natural Language Toolkit,Unzip

  (3) 准备训练数据

  MSCOCO图像标注数据集

  (4) 下载Inception v3 Checkpoint

  需要一个训练好的Inception v3 Checkpoint文件来初始化编码器(CNN)参数

  (5) 训练模型

  分为2步,初始训练和进阶训练

  (6) 预测标题

  你可能得到不同的结果,这些差别是正常的。

  1.3 主要工作及创新点

  本文主要以Google的基于TensorFlow的show and tell自动图像描述系统为研究对象,并与两种机器翻译方法相结合来完成多语言图像标题自动生成的研究。实验之前深入分析了show and tell模型,并对比相关后续先进技术;也对机器翻译主要方法进行了分析,而后通过实验对比分析Google机器翻译与Transformer翻译方法。本文完成的主要工作及创新点有:

  (1)利用show and tell自动图像描述系统,实现从图片生成描述。

  (2)分析了Image Caption相关技术的特点。

  (3)利用Google机器翻译以及Transformer翻译方法进行英文-中文的翻译。

  (4)对给定语料进行人工标注,生成翻译参考语句。

  (5)对比Google机器翻译和Transformer翻译方法的模型架构,并通过实验验证其性能。最后得出图片和多语言描述的匹配度,并进行错误分析。

  1.4 本文的组织结构

  本文共分为五章,每章内容简介如下:

  第一章:绪论。本章介绍了《多语言图像标题自动生成研究》课题的研究背景及意义、show and tell系统简介及模型运行说明、本文的主要工作及主要创新点,最后介绍了本文的组织结构。

  第二章:本章主要介绍了现在的几种Image Caption自动图像描述技术的原理,并对这些现有技术进行分析对比,最后对Image Caption自动图像描述技术进行了总结。

  第三章:本章详细介绍并分析了两类基于深度学习的机器翻译方法,并对比其优点与不足,简要概括了当前机器翻译领域的研究热点,并对机器翻译技术进行了总结。

  第四章:本章主要介绍了Google tensorflow-im2txt-master 自动图像描述系统,接着将把Google自动图像描述系统与两种翻译方法相结合(Google翻译和transformer方法),进行多语言图像标题自动生成研究。对比分析使用不同翻译方法的最后生成标题的性能,以及这两种翻译方法在单独进行英文-中文翻译的性能。。

  第五章:总结全文,提出未来研究展望。

  第二章 Image Caption自动图像描述技术

  本章详细介绍了发展至今的几种Image Caption自动图像描述技术的原理,并对这些现有技术进行分析对比。

  2.1 Image Caption简介

  Image Caption自动图像描述问题其本质就是视觉到语言(Visual-to-Language)或者是图片到文字(Image-to-Text)的问题,用一句简单的话来说就是:看图说话。就像我们小时候在看图说话作业中完成的任务一样,我们希望计算机也能根据给定的图像来生成能够描述其内容的自然语言句子。

  虽然在我们看来这是在简单不过的事情了,甚至我们时时刻刻都在通过这种方法来理解这个世界,但是对于计算机来说,这不能不称之为一个挑战,因为自动图像描述任务的输入和输出是两种不同形式的信息,即图像信息和文本信息。

  随着近年来深度学习领域的发展,一种将深度卷积神经网络(Deep CNN)和循环神经网络(RNN)相结合的方法在自动图像描述问题上取得了显著的成功。甚至因为这个方法的成功,许多基于这个方法的自动图像描述研究开始火热。

  2.2 相关技术分析

  按照技术发展历程,自动图像描述技术分为以下几类:show and tell模型[1]、show attend and tell模型[2]、使用高层语义特征的模型[3]、改进了RNN的模型[4]和基于传统语言建模方式的模型[5]。

  2.2.1 show and tell模型

  Show and tell模型在论文《Show and Tell: A Neural Image Caption Generator》中提出,这篇论文是Image Caption任务早期的研究作品。模型的主要结构借鉴了机器翻译中的结构,机器翻译的任务是把一种自然语言转换为另一种自然语言。多年来,机器翻译也是由一系列独立的任务完成的(翻译单词、对齐单词、重新排序等),但是最近的研究表明,使用递归神经网络(RNN)可以用更简单的方法进行翻译,而且还能达到最好的性能。一个encoder-RNN(编码器)读取源语句并将其转换为一个复杂的固定长度的向量表示,随后被用作生成目标句子的decoder-RNN(解码器)的初始隐藏状态[6,7,8]。

  Show and tell模型把Encoder-Decoder结构做了简单修改,用一个深度卷积神经网络(CNN)代替编码器RNN。在过去的几年研究里,它已经让人们信服,深度卷积神经网络CNNs可以通过将输入图像转换为固定长度的向量,从而产生丰富的输入图像,这种表示法可用于许多视觉任务。因此,使用CNN作为图像的“编码器”,首先将图像放入CNN神经网络进行转换,并将CNN的最后一个layer作为RNN解码器的输入,来生成句子。

  在统计机器翻译方面,给定一个强大的序列模型,往往通过直接最大化正确翻译的概率的方法来达到最好的结果,即以“end-to-end”的方式。这些模型利用一个RNN神经网络,将输入序列编码到一个固定的维度向量中,并利用这个向量来“解码”到输出序列。因此,可以使用相同的方法,给定一个图像(而不是源语言中的输入句),能够适用于同样的原则,将其“翻译”到它的描述中。通过使用以下公式直接最大化给定图像的正确描述的概率:  LSTM模型的核心是一个记忆单元c,在每个时间步骤中,c记录下在这个步骤前已经观察到的输入。c的行为是由“门”控制的,“门”层是用乘法来进行的,因此,如果门是1,则可以从门禁层中保留一个值,如果门是0,则丢弃这个值。特别地,这里使用了3个门来控制是否忘记当前记忆单元的值(忘记门f),是否读取它的输入(输入门i),以及是否输出新的单元值(输出门o)。三个门的定义如下:

  其中⊙表示门运算符,W矩阵是训练参数。三个门的使用更好的训练了LSTM网络,因为这些门可以很好地处理爆炸和消失的梯度。最后一个方程是用来给一个Softmax提供的,它将产生一个关于所有单词的概率分布 LSTM模型被训练用来预测句子的每个单词,因为它已经看到了图像以及所有前面的单词,为了这个目的,可以想象LSTM展开形式—一份LSTM内存图像和每个句子的词所创建,这样所有LSTMs就能共享相同的参数, LSTM在时间t?1的输出

  2.2.3 使用高级语义特征的模型

  2.2.1和2.2.2模型中,都是使用CNN神经网络的卷积特征作为“图像语义”,但这篇文章《What Value Do Explicit High Level Concepts Have in Vision to Language Problems?》认为,CNN在最终的分类层包含了大量诸如“图中有无人”、“图中有无桌子”这样的高层信息。这种高层语义与最终生成的语句非常相关,不能轻易舍弃。

  作者把这个高层语义理解为一个多标签分类问题。不同于通常的一对一关系,在自动图像描述任务中,由于一张图片中的物体数目会有很多,因此图片和物体标签就是一个一对多的关系。所以需要对原先的CNN神经网络结构进行适当调整。面对通常的一对一关系中,只需要对卷积特征使用一个softmax,而面对一对多关系中,每有一类物体,就需要使用1个softmax层。设第i张图片的标签  生成文字的过程如上图2.7,反过来生成图像特征的过程如上图2.8。

  2.2.5 基于传统语言建模的模型

  与上面4种方法不同,《From Captions to Visual Concepts and Back》这篇论文没有采用encoder-decoder架构,而是基于传统语言建模方式。

  在图像特征提取方面,这篇文章和《What Value Do Explicit High Level Concepts Have in Vision to Language Problems?》类似,先从图像中提取相关单词,再把单词组织为句子。不同点在于,上节的模型利用多标签学习的方式,而这个模型采用多示例学习(Multiple Instance Learning)的方法,这个方法不仅可以从图像中提取相关单词,而且可以找到单词对应的图像区域。

  多示例学习是一种半监督算法。可以这样设想:有很多个数据包(bag),每个bag中有很多示例(instance)。现在只有对bag的正负类标记,而没有对bag中各个instance的正负例标记。正负判定规则如下:如果一个包里有一个instance是正类,那么这个bag即为正,只有当bag里面的所有instance都是负类时,bag才为负。作者的目标就是训练一个分类器对instance的正负进行判别。

  在这篇论文中,就是使用多示例学习来处理从图片出提取单词这一问题。在这个场景中,如果一个图片存在某个区域(instance)为正(指的就是存在某个生成词),那么这个图片(bag)就为正(指的就是图片描述中含有某个生成词)。由此,作者使用多示例学习方法进行两步迭代,第一步是选出正例bag中最有可能是正例的instance、以及负例bag的instance,第二步是利用选出的instance进行训练,更新训练。如此迭代,就可以对图片的区域进行分类了。这样就可以从图片的区域中提取相关的单词(如下图)。

  2.3 Image Caption技术总结及展望

  本章选取了Image Caption领域中比较重要的5篇文章进行了介绍。第一篇论文首先使用了Encoder-Decoder结构对此问题进行建模,接下来三篇文章分别从不同的角度对第一篇论文做出了改进。最后介绍的论文并没有采用Encoder-Decoder结构,而是采用传统的方式对语言进行建模,也具有一定启发意义[6]。

  部分模型完成的自动评价标准得分已高于人类的分,但并不代表实际描述语句就比人类描述语句水平高[7]。想要更好地解决自动图像描述问题,还需要:

  (1)与人类评价相关性更高的自动评价标准;

  (2)更大的数据集;

  (3)在图像分析部分,语言生成部分,或者两个部分的连接方式上出现新的模型或思路。

  第三章 机器翻译

  机器翻译技术是研究利用计算机进行自然语言转换的技术,是人工智能(AI)和自然语言处理(NLP)的重要研究领域。

  自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。当以BLEU值作为评测指标时,神经机器翻译在绝大多数语言上优于传统的统计机器翻译。因此,本章详细介绍并分析了两类基于深度学习的机器翻译方法,并对比其优点与不足。

  3.1 基于深度学习的统计机器翻译

  3.1.1 基于深度学习的统计机器翻译的核心思想

  基于深度学习的统计机器翻译仍旧以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型、翻译模型、调序模型、词语对齐等,取得了显著的效果。

  3.1.2 基于深度学习的统计机器翻译的优点

  深度学习有效缓解了数据稀疏的问题。以语言模型为例,传统的语言模型通常采用n-gram方法来极大似然估计训练参数,然而多数n-gram在语料库中只出现一次,因此无法准确估计模型参数。美国BBN公司的Jacob Devlin等人提出了神经网络联合模型(Neural Network Joint Models),将源语言端的相关部分也加入到了当前词的n-gram模型中。因此该联合模型能够使用到丰富的上下文信息(包括目标语言端的历史信息和源语言端的相关部分),性能得到了显著提升。

  使用深度学习还能够解决特征难以设计的问题。传统的方法无法从众多的词语中选择出能够决定调序次序,也不能充分利用到整个词串。而基于神经网络的调序模型通过递归自动编码器生成词串的分布式表示,随后建立神经网络分类器来缓解特征设计的问题。实验证明,深度学习不仅能产生出新的特征,还能在现有特征集合中生成新的特征集合,大大提高了翻译模型的表达能力。

  3.1.3 基于深度学习的统计机器翻译的不足

  虽然利用深度学习使得传统机器翻译得到了性能的提升,但仍然面临如下的难题。

  (1)线性不可分

  主体依旧是传统机器翻译的线性模型,面对高维数据存在线性不可分的问题。而将线性模型转换为非线性模型的方法并没有取得成功。

  (2)非局部特征

  深度学习产生的新特征是非局部的,无法设计出高效的动态规划算法。

  3.2 end-to-end神经机器翻译

  3.2.1 神经机器翻译基本结构及发展历史

  神经机器翻译(Neural Machine Translation)是指利用神经网络将源语言映射为目标语言的机器翻译方法。与上一节中的利用深度学习改进传统统计机器翻译中关键模块的方法不同,神经机器翻译的方法简单又直观。

  神经机器翻译采用了“编码器-解码器”(encoder-decoder)的新框架。首先使用了一个神经网络(被称为encoder)将源语言文本映射为一个连续的、稠密的向量(后文称为上下文向量),然后再使用一个神经网络(被称为decoder)把这个向量转换为目标语言文本。

  神经机器翻译的建模思想其实由来已久。早在上世纪90年代,西班牙阿利坎特大学的Forcada和?eco就已经提出“编码器-解码器”的结构并应用于翻译。得益于深度学习的发展,英 国 牛 津 大 学 的 Nal Kalchbrenner 和 PhilBlunsom 于 2013 年首先提出了端到端神经机器翻译方法。2014年,Google公司的Sutskever将长短期记忆LSTM(Long Short-Term Memory)网络引入神经机器翻译。LSTM网络使用了3个门(忘记门f,输入门i,输出门o),这些门使得LSTM的训练成为可能,解决了训练普通RNN时遇到的“梯度消失”和“梯度爆炸”问题,并能够实现长距离依赖。随后,Yoshua Bengio 研究组在前者的研究基础上又引入了注意力机制,并显著提升了翻译性能。

  3.2.2 采用注意力机制的神经机器翻译模型

  所谓注意力机制,就是解码器在生成某一个目标词语时,仅仅关注那些与之相关的源语言部分。例如,在上图中,当生成目标词“election”时,实际上源语言中只有“大选”和它有关。因此,作者希望给每一个即将生成的目标词自动选择相关的上下文向量,而不是整个源语言句子所生成的向量。此外,解码器使用了双向循环神经网络。

  3.2.3 神经机器翻译的不足

  得益于注意力机制,神经机器翻译的性能得到大幅提升。但仍存在许多问题需要解决:

  (1) 可解释性差

  神经机器翻译重在神经网络的设计,中间量,即上下文向量,无法被解释,不能依据语言学的相关理论来提升性能。

  (2) 训练复杂度高

  神经机器翻译的训练复杂度是传统方法复杂度数量级上的提升,需要大量高性能GPU才能进行训练,计算成本高。

  (3) 词语表规模受限制

  源语言和目标语言两端的词语表常常无法支持某些词形丰富的语言。

  (4) 翻译覆盖问题

  注意力机制虽然实现了神经机器翻译整体的性能提升,但不是所有场合都能保证源语言中词语与目标语言词语恰好相关,“过翻译”(某个词多次被翻译)和“欠翻译”(某个词没有被翻译)现象时常出现。

  (5) 翻译不忠实问题

  因为采用了连续表示的方法来表示词语,造就了目标语言句子的流利度,却丢失了原本源语言句子的真实语义。

  3.3 机器翻译研究展望

  机器翻译研究历经60的发展,不断弱化人在翻译过程中的作用。从最早的词典匹配、到基于词典和语言学知识的规则翻译、再到基于短语的统计机器翻译,最后成长为当前基于人工神经网络的机器翻译,信息技术正开始扮演一个重要角色。

  近年来,end-to-end神经机器翻译成为最热门的研究领域,未来的研究方向也将围绕其展开。

  (1) 优化注意力机制。

  (2) 优化评价指标。

  (3) 多语言神经机器翻译。

  (4) 引入语言学的知识。

  (5) 神经机器翻译和传统统计机器翻译的结合。

  (6) …

  3.4 机器翻译技术总结

  本章首先详细介绍了2种基于深度学习的机器翻译方法,随后对比分析了各自的优缺点,最后提出了未来技术的发展方向。近年来,百度发布了结合统计和深度学习方法的在线翻译系统,Google也在中英互译上采用了神经翻译系统,这些足以证明神经机器翻译在学术界和工业界的迅速发展。相信在未来,神经机器翻译会取得更大进步,真正造福社会。

  第四章 多语言图像标题自动生成实验

  本章首先会介绍Google tensorflow-im2txt-master 自动图像描述系统,接着将把Google自动图像描述系统与两种翻译方法相结合(Google翻译和transformer方法),进行多语言图像标题自动生成研究。对比分析使用不同翻译方法的最后生成标题的性能,以及这两种翻译方法在单独进行英文-中文翻译的性能。

  4.1 Google show and tell自动图像描述系统介绍

  Show and tell模型是一个编码解码神经网络的例子。它首先将图像“编码”为固定长度的向量表示,然后将其“解码”为自然语言描述。

  图像编码器是一个深度卷积神经网络(CNN)。这种类型的网络广泛用于图像任务,目前是用于对象识别和检测的最新技术。我们特别选择的网络是在ILSVRC-2012-CLS图像分类数据集上预先训练的初始Inception v3图像识别模型。

  解码器是一种长短时记忆(LSTM)网络。这种类型的网络通常用于序列建模任务,如语言建模和机器翻译。在Show and tell模型中,LSTM网络被训练为基于图像编码的语言模型。

  标题中的文字用嵌入模型表示。词汇中的每个单词都与在训练中学习的固定长度的向量表示相关联。

  4.2 Transformer翻译方法

  Transformer翻译方法提出于《Attention is all you need》一文中,如题目所示,这是一个基于纯注意力来进行机器翻译的模型[12]。

  不过这样的模型不能捕捉到序列的顺序。比如说,将句子中的词语顺序打乱,并不会对Attention结果产生影响。因此,作者引入了Position Embedding(位置向量),将每个位置都对应一个向量,并通过位置向量和词向量结合,让Attention层能够分辨不同的位置。Position Embedding的定义如下:

  这样的定义还能利用三角函数的特性,将位置p+k的向量表示为位置p向量的线性变换,提供了相对位置的表达。

  总的来说,Attention层能够一步捕捉全局的相关性(得益于Self Attention机制),并在机器翻译中取得了非常好的效果。

  4.3 开始实验

  4.4.3 错误分析

  从图片-英文标题-中文标题生成的整个过程来看,导致图片和中文标题不对应的原因有2项:第一步im2txt出错和第二步txt2txt出错。

  第一步自动图像描述系统往往不能捕捉到图片中的细节,容易将事物混淆。例如上节中的示例1,2,其中把鞋架描述成了suitcase,把路面描述成了bench。

  第二步机器翻译则无法分辨出某特定场景下某些词语的翻译方式。例如上节中的示例3,4,Google机器翻译直接将bat直译成了蝙蝠(没有考虑到上下文的棒球比赛环境),又将laptop computer直译为膝上型电脑(没有联系到中文的通俗叫法),总体上来看效果可让人接受。而Transformer方法出来的句子不尽如人意,许多英文词语似乎存在欠翻译,BLEU值也仅仅0.2左右,究其原因,可能出在训练语料以及训练时间的不足上。

  4.5 本章小结

  本章首先介绍了Google自动图像描述系统和transformer翻译方法,接着进行实验研究并对实验结果进行对比分析,利用专业的BLEU值评价了相关性能和正确率,最后对实验中的错误展开分析。自动图像描述系统所生成的图像标题和原图像存在细节上的偏差;Google机器翻译得益于其大数据的支持,总体翻译效果不错,但无法正确翻译某些专业名词;Transformer翻译方法由于是自己训练,缺少语料,训练时间也不够,出现了欠翻译,翻译错误的问题,翻译效果与Google相去甚远。

  第五章 总结与展望

  5.1 总结

  现在正爆发一场以信息技术为主导的第三次工业革命,人工智能技术正渐渐进入我们的日常生活。计算机越来越像人一样,会独立思考,会感知世界。Image Caption技术,机器翻译技术在其中扮演了重要的角色,也成为当下的研究热点。

  本文主要以Google的基于TensorFlow的show and tell自动图像描述系统为研究对象,并与两种机器翻译方法相结合来完成多语言图像标题自动生成的研究。深入分析了show and tell模型,并对比相关后续先进技术;对比分析Google机器翻译与Transformer翻译方法,并进行实验验证。

  本文主要贡献如下:

  (1)利用show and tell自动图像描述系统,实现从图片生成描述。

  (2)分析了Image Caption相关技术的特点。

  (3)用Google机器翻译以及Transformer翻译方法进行英文-中文的翻译。

  (4)对给定语料进行人工标注,生成翻译参考语句。

  (5)对比Google机器翻译和Transformer翻译方法的模型架构,并通过实验验证其性能。最后得出图片和多语言描述的匹配度,并进行错误分析。

  5.2 后续工作

  然而,本文提出的方法也存在以下不足:

  (1)所采用show and tell自动图像描述系统生成的图片标题,尚不能达到人类描述的准确度,对图片中的细节仍然无法识别并描述。

  (2)通过与Google机器翻译的对比,本文采用的第二种翻译方法Transformer方法翻译效果不如人意,存在欠翻译和翻译错误的问题。

  (3)本文中及实验中所用的相关系统(程序)都是单独运行,尚不能整合为一个“多语言图像标题自动生成”系统。

  今后的工作将进一步优化show and tell自动图像描述系统,搜集更多的语料来对Transformer模型进行优化以提高其性能,可能的话把2个部分结合起来构建一个“多语言图像标题自动生成”系统。

移动版:多语言图像标题自动生成研究

本文标签: