超越笔尖:从视觉原型生成手写文本的人工智能艺术
超越笔尖:AI艺术生成手写文本
风格化手写文本生成(HTG)是一个新兴领域,旨在创建手写文本图像,以复制个体作者独特的书法风格。这个研究领域具有多样的实际应用,从为个性化手写文本识别(HTR)模型生成高质量的训练数据,到为身体受损的人自动生成手写笔记。此外,从专为此目的设计的模型中获得的独特风格表示可以在其他任务中发挥作用,如作者识别、签名验证和手写风格的处理。
当深入研究风格化手写生成时,仅依赖风格转换是有限的。这是因为模仿特定作者的书法超越了纹理考虑,如背景和墨水的颜色和纹理。它包括了诸如笔画的粗细、倾斜度、扭曲度、圆度、单个字符形状和连字等复杂细节。准确处理这些视觉元素对于防止可能无意中改变内容的伪影(如引入小的额外或缺失笔画)至关重要。
为了应对这个问题,已经提出了专门的HTG方法。一种方法涉及将手写视为由单个笔画组成的轨迹。或者,可以将其视为捕捉其视觉特征的图像。
前一组技术采用了在线HTG策略,其中笔迹的预测是逐点进行的。另一方面,后一组则构成了直接生成完整文本图像的离线HTG模型。本文介绍的工作专注于离线HTG范式,因为它具有优势属性。与在线方法不同,它不需要昂贵的笔迹记录训练数据。因此,它可以应用于作者在线手写信息不可用的场景,如历史数据。此外,离线范式更易于训练,因为它避免了梯度消失等问题,并允许并行化。
本研究采用的架构被称为VATr(基于视觉原型的Transformer),为Few-Shot离线手写文本生成(HTG)引入了一种新颖和创新的方法。下图概述了提出的技术。
这种方法通过将字符表示为连续变量,并将其用作Transformer解码器内部的查询内容向量来进行生成过程。过程从字符表示开始。字符被转换为连续变量,然后在Transformer解码器内部用作查询。这个解码器是生成基于提供的内容的风格化文本图像的关键组件。
这种方法的一个显著优势是它能够促进在训练数据中较少遇到的字符的生成,如数字、大写字母和标点符号。这是通过利用潜在空间中罕见符号与更常见符号之间的接近性来实现的。
该架构使用GNU Unifont字体将字符呈现为16×16的二进制图像,有效地捕捉了每个字符的视觉精髓。然后学习这些字符图像的密集编码,并将其作为查询嵌入到Transformer解码器中。这些查询将解码器的注意力引导到风格向量上,这些风格向量是由预训练的Transformer编码器提取的。
此外,该方法还受益于预训练的骨干网络,该网络最初在一个专门强调书法风格属性的广泛合成数据集上进行了训练。虽然在HTG的背景下常常忽视这种技术,但其有效性在产生出对以前未见过的风格尤其有效的风格表示方面得到了证明。
VATr架构通过与最新的最先进的生成方法进行广泛的实验比较进行验证。下面报道了一些结果和与最先进方法的比较。
这是VATr的摘要,它是一种新颖的人工智能框架,用于从视觉原型中生成手写文本。如果您对此感兴趣并想了解更多信息,请随时参考下面引用的链接。