环球网校是美国纳斯达克上市企业欢聚时代(NASDAQ:YY)旗下品牌 | 住房和城乡建设部 建筑人才培训合作单位
您现在的位置在: > 财会考试 > 注册会计师 > 考试动态 >

large OpenAI评测GPT4多模态大模型,用OCR领域局限

2024-04-20 来源:网络 作者:佚名

2023年3月15日,在Open AI正式发布会上,GPT4展示了强大的多模态能力。 可以识别搞笑图片、做物理题、看论文总结等,并且在数据集上表现良好比如已经实现了SOTA性能,但是GPT4的技术细节还没有公开,图像输入功能也没有已被打开。 为了探索如何实现GPT4的多模态能力,最近有学者利用开源的大语言模型(LLM)结合视觉模块构建了类似于GPT4的多模态大模型(LMM)。 他们在视觉问答等方面表现出了惊人的能力。 人们不禁疑惑,这种类似GPT4的多模态大模型是万能的吗? 他们如何执行各种其他任务? 它们可以取代当前为特定任务设计的方法吗? 他们目前有什么缺点?

#

为了探讨上述问题并为后续研究提供启发,近期论文《On the of OCR in Large》评估了目前开源的 5 个 GPT4 多模态大型模型在 OCR 领域的零样本性能。 文本识别、基于文本的视觉问答(Text Based VQA)、关键信息提取(KIE)和手写公式识别(HMER)的实验揭示了在OCR领域直接使用多模态大型模型的局限性。 论文评估过程代码和网络演示的开源链接是: #

一、研究背景

#

随着GPT-4等大规模语言模型(LLM)的到来,LLM在零样本任务场景中取得了巨大成功,并扩展到多模态视觉语言领域,在大规模多模态语言领域处于领先地位。 -模态模型(LMM)。 )系列研究。 刘等人的研究。 表明 LMM 表现出出色的零样本 OCR 性能,无需对 OCR 特定域数据进行训练。 了解 LMM 如何处理与文本相关的视觉任务至关重要,因为它有可能从文本和图像等多个数据源推断上下文。 尽管有这样的优势,但由于Web规模数据的训练方法并不是针对OCR领域精心设计的,这些大型模型在处理不同类型数据之间的复杂关系时仍然遇到很大的挑战。 认识到这些局限性可以指导我们改进多模态方法并探索更稳健的模型来更有效地处理文本相关任务。 #

2. 评估模型概述 #

/:预计于 2022 年出版。对于 和 LLM,在末尾添加模块以增强视觉表现; 在LLM的每一层之前添加门控Xattn密集模块,以增强跨模块信息交互。 它由 LAION 团队于 2023 年 3 月发布,是该模型的开源复制品。

#

BLIP-2:由研究团队于 2023 年 1 月发布。 和 LLM,通过轻量级查询弥合模式之间的差距。 在表示学习阶段,Q-通过图文比较学习、图文生成和图文匹配三个任务来提取文本相关特征。 在生成预训练阶段,将视觉编码器和Q连接连接到冻结的LLM,并通过生成训练将视觉特征与LLM对齐。

#

:阿卜杜拉国王科技大学于2023年4月20日发表。使用线性层连接冻结视觉模块(Q-&ViT)和LLM(),该模型通过由粗到细的两级微调。 #

LLaVA:由微软研究人员于2023年4月17日发布。LLaVA以图像和物体检测信息作为输入,利用纯语言GPT4生成多模态指令微调数据。 训练的第一阶段在大规模图像文本对上训练投影层以进行跨模式对齐。 第二阶段使用生成的多模态指令微调数据集训练投影层和 LLM()。

#

mPLUG-Owl:阿里巴巴于2023年4月27日发布。模型训练分为预训练和指令微调两个阶段。 预训练阶段将视觉特征与大规模图像文本对上的法学硕士对齐。 在指令微调阶段,LLM(LLaMA)针对文本单模态和视觉文本多模态指令进行微调。 #

上图是LMM(Large Model)的训练数据对比。 BLIP2 和仅使用图像和文本对进行训练。 LLaVA和mPLUG-Owl包括两个阶段:预训练和多模态指令微调。 其中,仅对线性层进行微调,LLaVA对线性层和LLM进行微调,mPLUG-Owl对视觉模块和LLM均进行微调。 由于更多的训练数据和可训练参数,mPLUG-Owl 通常表现出更好的性能。

#

3. 评估数据集 #

文字识别:评估数据集包括,SVT、IC13、IC15、SVTP、CT80、COCO、CTW、、HOST、WOST、(艺术字)、IAM(手写字体)、ReCTS(中文招牌)、CAR-A(手写数字) ) 细绳)。

#

基于文本的视觉问答:评估数据集包括STVQA、、(文档图像)、(中英文双语)、(图表)。 #

关键信息提取:评估数据集包括FUNSD(文档)、SROIE(收据)和POIE(营养标签)。 #

手写公式识别:包括评估数据集。

#

4 实验结果与可视化分析 #

本文以GT出现在生成答案中的比例作为评价指标。 定量评价结果如下:

#

场景文字识别和手写识别错误示例

#

法学硕士表现出强大的 OCR 能力。 值得注意的是,BLIP2和mPLUG-Owl上的结果超过了在合成数据集上训练的SOTA,但与其他数据集上的SOTA方法仍有一定差距。 #

基于文本的视觉问答和信息提取错误样本 #

由于输入大小等原因,LMM 在文档 VQA 和信息提取任务上表现不佳,这说明了 LMM 在细粒度视觉信息感知方面的缺点。 #

手写公式识别错误示例 #

由于训练数据中缺乏手写公式图像、笔迹形状杂乱多变、字符间复杂的空间结构关系、LaTeX输出格式等,LMM很难识别手写公式。 #

5. LMM的局限性 #

语义依赖:CAR-A(手写数字字符串)实验表明,LMM 在没有语义上下文的文本识别上表现不佳。

#

为了进一步验证LMM的语义依赖特性,本文使用的词典合成了两个文本数据集Text和Non-Text(包含3000张图像)。 文本图像中的单词来自字典,而非文本的相应图像包含相同的单词,但字符的顺序是随机打乱的。 由于置乱后的文本不具备原始语义信息,LMM在Non-Text数据集上的性能大幅下降,而场景文本识别的SOTA方法仅下降了5%。 #

语义干扰:大型语言模型中存在的广泛语言知识有时可能会阻碍多模态大型模型对文本的准确识别。 LMM 通常会补全不完整的单词或将某些文本图像识别为更接近的常见单词。 例如,LMM 会将“”和“Hellw”识别为“Yeah”和“Hello”,并将“Pacif”和“Choco”识别为“”和“”。

#

字符数:当被问到“图像中的单词有多少个?”时,LMM 很难给出正确答案。 #

细粒度视觉信息感知:LMM的输入图像尺寸为224×224,分辨率较低,难以提取文档、收据、标签图像的细粒度信息。 #

可视化多语言能力:由于LLM本身具有多语言能力,LMM可以理解中文指令。 ReCTS( )和(ch)中的实验证明,LMM很难识别汉字,这可能是由于视觉模块预训练和多模态指令微调时缺少中文数据所致。 #

LMM具有对图像整体的感知和理解能力,但在字符级任务、关键信息提取等细粒度任务上表现较差,这表明LMM的细粒度感知和理解能力仍有待提高。 此外,对于手写公式识别等复杂任务,仍需要有针对性的优化和设计。 #

六、总结

#

本文对 LMM 在 OCR 相关任务上进行了广泛的研究,展示了 LMM 目前在文本和图像领域的应用现状。 LMM 可以取得令人鼓舞的结果,特别是在文本识别方面,甚至在一个数据集中达到最先进的性能,但 LMM 在处理复杂任务方面仍然存在困难,无法与传统文本任务中的特定领域方法竞争。 同时也揭示了LMM在语义依赖、语义干扰、字符计数、细粒度信息感知、视觉多语言等方面的固有缺陷。 与特定领域的监督方法相比,仍然存在显着差距,这表明针对每个文本任务量身定制的专业知识仍然是必要的,因为后者使用的计算资源和数据要少得多。 #

本文开源了完整的OCR评估代码、数据接口和在线评估系统。 可以为开发和评估多模态大模型技术的零样本泛化能力提供基准。 #

文章链接: #

代码链接: #

在线评价::7860/ #

7. 参考文献 #

[1] JBlarge,J,Luc P,等。 : 少样本模型[J]. 于 2022 年,35:23716-23736。 #

[2] 李杰英语作文,李东,等。 Blip-2:-图像预-与图像和大[J]。 arXiv arXiv:2301.12597,2023。

#

[3] 刘辉large,李春,吴清,等。 [J]. arXiv arXiv:2304.08485,2023。 #

[4] 朱德,陈健,沉晓,等。 -4:-同大[J]. arXiv arXiv:2304.10592,2023。

#

[5] 叶清,徐浩,徐刚,等。 mplug-owl:大同[J]. arXiv arXiv:2304.14178,2023。

#

原作者:刘、张莉、余、杨刘、彪阳、黄、彭德志、刘、陈、李、尹、刘、金、白翔 #

作词:李畅 #

编曲:高雪

#

审稿人:尹飞

#

发布者:金连文

#

责编:admin 返回顶部  打印

关于我们联系我们友情链接网站声明网站地图广告服务帮助中心