基于笔的计算:仍在寻找合适的应用程序

“我认为我们处于一种‘草图之冬’,就像有一场人工智能之冬。我写这篇论文的原因是因为我相信我们正在退出‘草图之冬’,进入‘基于笔的春天’或‘笔记本之春’。”

原作者:Gorgon Kurtenbach

2004年,《纽约时报》的一篇报道引用了布朗大学技术与教育的托马斯·J·沃森大学教授和计算机科学教授安迪·范·达姆的话,关于笔记本电脑普及的可能受众。范·达姆是计算机图形学和人机交互研究的先驱者,也是ACM院士,他认为笔记本电脑界面可能会在教育工作者、建筑师、图形和界面设计师中流行起来。

此后,布朗大学成为笔记本电脑研究的中心。2006年,布朗大学成为微软笔心计算研究中心的所在地,该项目资金用尽后,该大学将其活动整合到大学的计算机科学图形组中。

然而,范·达姆最近告诉《通讯》杂志,布朗大学的笔记本电脑研究已经停滞不前,就像研究实验室一样;它在实验室外的广泛应用也已经停滞不前。

“我们有一个84英寸的笔触显示屏,”范·达姆说。“微软不维护它。我们不知道如何维护它。对于建造和支持它的人来说,修复它可能非常简单,但它现在已经坏了,我们把它当作一个大电视屏幕来使用。我们已经回到了我认为是一个更差的交互设备,也就是鼠标和键盘。”

“我把其中的一部分责任归咎于我非常了解的史蒂夫·乔布斯。他非常反对笔,杀死了在iPad和iPhone上使用笔的任何想法,而他们成为了标杆。我认为他阻止了一场可能引发革命的事情。”

布朗大学的研究主任罗伯特·泽莱兹尼克说,最近缺乏活动并不意味着笔记本电脑已经死亡,而是需要重新校准研究的方向。“我们在过去四年中避免使用笔,不是因为我们对它不感兴趣,而是因为我认为它在利基领域效果最好,”他解释说,笔记本电脑将是一个逐个学科进行的进化性学科,而不是革命性的大众设备通讯方式。

约瑟夫·LaViola Jr.曾是范·达姆在布朗大学的博士生,进行了大量的笔记本电脑研究。LaViola表示,他也注意到该领域的研究明显放缓,但有些学科仍然可以使用笔,特别是在教育领域。

“还有研究需要做,”LaViola说。“需要进行的研究更多地是试图理解如何从应用角度利用笔记本电脑。基于笔的计算非常适合教育应用,因为我们在教育中做的很多事情都涉及到二维语言,这比打字容易得多——比如数学、化学和音乐。您可以在屏幕上像写字纸上一样画出来,系统会识别并对其进行处理。”

LaViola现在是中佛罗里达大学的计算机科学教授,在布朗大学时,他开创了基于笔的教育应用程序;他的博士研究包括开发一个名为MathPad的交互式基于素描的数学教学平台。该平台识别手写方程和图形,随后将方程动画化,将静态概念变得生动起来。这项技术被商业化为一家名为Fluidity的公司。

笔记本电脑之冬?

LaViola说,他目前没有进行任何基于笔的研究,他认为人们对它的兴趣已经减退,这是基于会议上呈现的论文数量很少的事实。例如,他说,最近的一个计算机人类交互会议只有一个基于笔的论文发表,而以前的会议可能有三到四篇。

然而,基于笔的计算并没有死亡;它可能只是处于类似于人工智能研究中的休眠期,根据伊恩·阿拉乔的说法,他与康奈尔大学的同事一起创建了一个名为Notate的基于笔的项目,该项目将基于笔的编程和文本编码集成到Jupyter笔记本中。阿拉乔和他的同事在2022年用户界面软件和技术研讨会上展示了他们关于Notate的研究成果。阿拉乔是该论文的第一作者,论文比较了在传统代码的行内集成手绘编码元素和相同数据的键入命令之间,集成手绘编码元素的量子编程的效率,获得了荣誉提名。

发布Notate论文代表着Arawjo十年的工作,他将于2024年1月加入蒙特利尔大学的教职,并进行额外的人机交互研究。Arawjo表示,许多因素阻碍了他的愿景;当他在2013年购买Microsoft Surface平板电脑和笔时,笔并不足以进行严格的研究。他还感到更广泛的研究社区可能过早地将注意力从基于笔的研究转移。

“在20世纪90年代末和21世纪初,关于基于笔的计算和我们所谓的草图识别的许多工作都已完成,许多著名的人机交互研究人员都是从基于笔的界面开始的,”Arawjo说。“当我试图与那个时期工作过的人交流时,他们会说‘我不再从事这方面的研究,因为我们已经完成了那个领域的研究。’”

“一直以来,这让我感到不安,因为硬件还不够好。我们没有Surface或Apple Pencil。现在,我们认为这些都理所当然,但是要达到这个水平,需要有很多硬件改进。”

此外,他还说,深度学习的最新成就使我们能够超越早期基于笔的实验的复杂架构:“如果你仔细阅读这些论文,你会发现他们所说的听起来很棒,但实际上,你必须以一种非常特定的方式写作,你必须使用一个非常特定的系统设置。它比这些论文所暗示的要难得多。”

“现在,有了深度学习和人工智能系统,软件已经存在。例如,现在可以进行离线草图识别,而以前必须进行在线草图识别,并且它非常不稳定。您必须以非常特定的方式写一个符号才能被识别。现在有更少的这样的问题。”

总的来说,Arawjo认为,基础硬件和软件能力现在已经足够强大,可以更容易地实现基于笔的计算领域特定研究,并且可以被其他人理解。

“我认为我们处于一种‘草图冬季’的状态,就像有一个AI冬季一样。我之所以写这篇论文,是因为我相信我们正在退出‘草图冬季’,进入‘草图春季’或‘基于笔的春季’。人机交互研究人员需要再次关注这种工作,因为他们可能已经停止关注它,因为他们在2000年代已经看过它并认为它已经结束了。”

文化和子文化

Notate论文不仅是基于笔的编码的技术描述,还涉及到编程文化的回顾,Arawjo和他的合著者在用户的草图与基于文本的代码进行交互的背景下将其称为“符号编程”。正如他们在论文的引言中指出的那样:“在编程出现之初,最早的计算机编程符号是手写的,而不是打字的,”“例如,在1945年出版的EDVAC一书中,约翰·冯·诺伊曼将图表和文本等同起来。”

对于Arawjo而言,基于笔的编程的复兴将不仅是回归到一个更公平的生态系统,而且还能够在一定程度上满足那些更习惯于以视觉方式与设备进行通信的人的需求,而这是打字范式无法达到的。

“当某人是主流文化的成员时,他们通常不会意识到它可能对其他人来说并不那么好,”他说。“所以这就是我真正激动人心的基于笔的计算,我们可以回到一种更自然的存在方式,我们不会过度关注这些区别。”

事实上,Notate论文发现,基于笔的编程与基于打字的编码方法在同一任务中的表现相当,有时甚至超过了基于打字的编码方法。

“什么是‘更好’取决于手头的任务,符号设计如何促进或抵制编码特定解决方案的能力以及试图应用它的人的背景和偏好,”Arawjo和他的同事们发现。“总的来说,这些发现支持我们的‘异质’(sic)符号编程的愿景——对于混合模式的设计,而不是永远要求使用一种模式。”

一个承诺,但不是“万能药”

尽管Arawjo表示他可以想象出基于笔的计算可能成为可行的编程选项的领域——数据可视化编程和游戏设计立即浮现在脑海中——他也表示,支持这种界面的更大基础设施也非常缺乏;他用于测试Notate的系统,包括重新训练与传统计算机视觉技术协作的机器学习模型,花了一年时间来构建。

“不要误解我,开发这个符号编程系统和深度学习模型是很困难的,”他说。“也有错误。我认为有必要使这个过程更加顺畅,需要建立基础设施,使得构建手写识别应用程序更容易。我们需要更强大的编程工具,可以是文本的,只是为了构建这些新的手写识别或基于笔的界面。”具体而言,Arawjo和他的同事们在Notate的范围内概述了调试工具和设计,以管理或减少键盘和笔之间切换的模式,作为需要改进基础设施的例子。

最终,根据van Dam和Arawjo的说法,基于笔的计算的未来可能取决于更加注重绘图精度的用户群体,以及可以帮助减少精度需求的人工智能平台,除了少数用户之外,其他用户都无法达到这种精度。

“假设存在一种替代现实,在那里我们必须非常精确地勾勒出图形才能与计算机通信,”Arawjo说,“那么,几乎每个人都必须因为必要而变得非常擅长绘画,但他们并没有,因为传统上计算机的强大功能并不依赖于绘图。他们可以打字。但是打字也不是自然而然的。一旦有了足够的人数进行草图绘制,那么你应该变得更好这种想法就会更加普遍,责任不在计算机而在你身上,因为这是你解锁计算机功能的方式。”

van Dam曾在几十年前参与光学字符识别应用程序的开发,他说,机器学习的能力已经帮助这个领域超越了Zeleznik和LaViola在LaViola的数学平台的早期版本中所能实现的范围,并且可能会影响基于笔的计算的未来。

“在20世纪50年代和60年代,我们必须选择特征,一些早期的算法,如Bob和Joe用于数学识别的算法,必须使用内置或添加的特征,但是机器学习摆脱了这一切。它找到了对人类没有任何意义的特征。它只是起作用,没有人知道为什么,”Van Dam说。

他建议,“不要放弃笔。不要放弃手势识别。只是接受它们不会成为万能溶剂。

“这种情况不会发生,有趣的是,这在某种程度上是一种文化现象。如果(苹果的史蒂夫)乔布斯,凭借他的王者之力,说过‘笔是一种自然的输入方式,像触摸一样’,许多孩子、青少年和年轻成年人会说,‘好的,我们跟随你,你是我们的思想领袖,在这里有一堆很好的应用程序可以充分利用它,’它将成为技术用户生态系统的一部分。但是因为他对此非常热爱,相反的事情发生了。”

Gregory Goth是一位专门从事科学和技术写作的位于康涅狄格州奥克维尔的作家。