ChatGPT的首个周年纪念:重塑AI交互的未来
ChatGPT首周年庆典:重新定义AI交互之未来
回顾ChatGPT的第一年,很明显这个工具已经显著改变了人工智能领域。ChatGPT于2022年末推出,其用户友好的对话风格使得与人工智能的互动更像是与人交谈而不是与机器交谈。这种新的方法迅速引起了公众的关注。在发布后的短短五天内,ChatGPT就已经吸引了一百万用户。到了2023年初,这个数字迅速增加到了约1亿月度用户,而到了十月,这个平台在全球范围内的访问量已经达到约17亿次。这些数字充分反映了它的受欢迎程度和实用性。
在过去一年中,用户发现了各种创意的使用ChatGPT的方式,从写电子邮件和更新简历等简单任务,到启动成功的企业。但重要的不仅仅是人们如何使用它,技术本身也在不断发展和改进。最初,ChatGPT是一个免费的服务,提供详细的文本回答。现在,有了ChatGPT Plus,其中包括ChatGPT-4。这个更新的版本在更多数据的基础上训练,给出更少的错误答案,并更好地理解复杂的指令。
最重要的更新之一是ChatGPT现在可以以多种方式进行互动 – 它可以听、说,甚至可以处理图像。这意味着你可以通过它的移动应用与它交谈,并展示图片以获得回应。这些变化为人工智能带来了新的可能性,并改变了人们对人工智能在我们生活中的作用的看法和思考方式。
从作为技术演示的起步到成为科技界的重要参与者,ChatGPT的发展历程非常令人印象深刻。最初,它被视为通过向公众获取反馈来测试和改进技术的一种方式。但它很快成为人工智能领域的重要组成部分。这一成功表明,通过在监督学习和人类反馈的基础上对大型语言模型(LLMs)进行精细调整是多么有效。因此,ChatGPT能够处理各种各样的问题和任务。
开发最强大和多功能的人工智能系统的竞赛导致了ChatGPT等开源和专有模型的大量涌现。了解它们的一般能力需要在广泛的任务范围内进行全面的基准测试。本节探讨了这些基准测试,揭示了不同模型(包括ChatGPT)在相互比较中的表现。
评估LLMs:基准测试
- MT-Bench:这个基准测试对八个领域进行了多轮对话和指令遵循能力的测试:写作、角色扮演、信息提取、推理、数学、编码、STEM知识和人文/社会科学。更强大的LLM模型如GPT-4被用作评估者。
- AlpacaEval:基于AlpacaFarm评估集,这个基于LLM的自动评估器将模型与GPT-4和Claude等高级LLMs的回答进行比较,计算候选模型的胜率。
- Open LLM Leaderboard:利用语言模型评估工具,这个排行榜在零-shot和少-shot设置下对LLMs进行了七个关键基准测试的评估,包括推理挑战和常识测试。
- BIG-bench:这个协作基准测试涵盖了200多个新颖的语言任务,涉及各种各样的主题和语言。它旨在探测LLMs并预测它们的未来能力。
- ChatEval:一个多代理辩论框架,允许团队对开放式问题和传统的自然语言生成任务的不同模型的回答质量进行自主讨论和评估。
比较性能
就一般基准测试而言,开源的LLMs在取得了显著进展。例如,Llama-2-70B在使用指令数据进行精细调整后取得了令人印象深刻的结果。它的变种Llama-2-chat-70B在AlpacaEval中取得了92.66%的胜率,超过了GPT-3.5-turbo。然而,GPT-4仍然是领先者,胜率达到了95.28%。
Zephyr-7B这个较小的模型展示了与更大的70B LLMs相媲美的能力,特别是在AlpacaEval和MT-Bench中。与此同时,WizardLM-70B在使用各种指令数据进行精细调整后,在MT-Bench中得分最高,超过了所有开源LLMs。然而,它仍然落后于GPT-3.5-turbo和GPT-4。
一个有趣的参赛作品,GodziLLa2-70B,在Open LLM排行榜上取得了竞争力的分数,展示出结合多种数据集的实验模型的潜力。类似地,从零开始开发的Yi-34B以与GPT-3.5-turbo相媲美的分数脱颖而出,并且仅略逊于GPT-4。
UltraLlama通过对多样化和高质量数据的微调,在提出的基准中与GPT-3.5-turbo相匹配,甚至在世界和专业知识领域超越了它。
规模扩大:巨型LLM的崛起

自2020年以来的顶级LLM模型
LLM的一个显著趋势是模型参数的规模扩大。像Gopher、GLaM、LaMDA、MT-NLG和PaLM这样的模型不断突破界限,最终形成参数高达5400亿的模型。这些模型展示了出色的能力,但其闭源性质限制了其更广泛的应用。这一限制引发了对开源LLM的兴趣,这一趋势正在蓬勃发展。
与扩大模型大小并行进行的是研究人员对替代策略的探索。他们不仅仅是让模型变得更大,而是专注于改进较小模型的预训练。Chinchilla和UL2就是这样的例子,它们表明更多不一定就是更好;更智能的策略也能产生高效的结果。此外,对语言模型的指导调整也备受关注,FLAN、T0和Flan-T5等项目在这一领域做出了重大贡献。
ChatGPT的催化剂
OpenAI推出的ChatGPT标志着自然语言处理研究的一个转折点。为了与OpenAI竞争,Google和Anthropic等公司推出了自己的模型,分别是Bard和Claude。尽管这些模型在许多任务上表现出与ChatGPT相当的性能,但它们仍然落后于OpenAI的最新模型GPT-4。这些模型的成功主要归功于通过人类反馈进行强化学习(RLHF)的技术,这一技术正在得到进一步改进的研究关注。
有关OpenAI的Q*(Q星)的传闻和猜测
最新报道表明,OpenAI的研究人员可能在人工智能领域取得了重大突破,开发了一种名为Q*(发音为Q star)的新模型。据称,Q*具备完成小学级数学的能力,这一成就在专家之间引发了对其作为人工通用智能(AGI)里程碑潜力的讨论。尽管OpenAI尚未对这些报道发表评论,但Q*的传闻能力在社交媒体和人工智能爱好者中引起了相当大的兴奋和猜测。
Q*的开发值得关注,因为像ChatGPT和GPT-4这样的现有语言模型虽然能够执行一些数学任务,但在可靠处理这些任务方面并不特别擅长。挑战在于AI模型不仅需要通过深度学习和转换器识别模式,还需要推理和理解抽象概念。数学作为推理的基准,要求AI规划并执行多个步骤,展示对抽象概念的深刻理解。这种能力将是AI能力的重大飞跃,可能不仅限于数学,还可以扩展到其他复杂任务。
然而,专家们警告不要过度炒作这一进展。虽然一个能够可靠解决数学问题的AI系统将是一个令人印象深刻的成就,但这并不一定意味着超智能人工智能或AGI的到来。当前的AI研究,包括OpenAI的努力,在基本问题上有所专注,对于更复杂的任务的成功程度不一。
像Q*这样的潜在应用前景广阔,包括个性化辅导、协助科学研究和工程等。然而,管理预期并认识到与此类进展相关的限制和安全问题也同样重要。AI对存在性风险的担忧,也是OpenAI的基本担心,仍然关乎重要,特别是当AI系统开始与现实世界更多地进行交互时。
开源LLM运动
为推动开源LLM研究,Meta发布了Llama系列模型,引发了一系列基于Llama的新进展。这包括使用指导数据进行微调的模型,例如Alpaca、Vicuna、Lima和WizardLM。研究还在扩展代理能力、逻辑推理和Llama框架内的长上下文建模方面展开。
此外,现在开始越来越多的人开始从头开发强大的LLM(语言模型),类似于MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok和Yi等项目。这些努力反映了将闭源LLM的功能民主化的承诺,使先进的人工智能工具更加可访问和高效。
ChatGPT和开源模型在医疗保健中的影响
我们正展望着一个未来,LLM(语言模型)在临床笔记、报销表格填写和支持医生诊断和治疗计划方面提供帮助。这引起了科技巨头和医疗机构的关注。
微软与 Epic(领先的电子健康记录软件提供商)的讨论表明了LLM在医疗保健中的整合。UC圣迭戈健康中心和斯坦福大学医学中心已经开展了相关倡议。同样,谷歌与 Mayo Clinic 和亚马逊网络服务的合作,以及其推出的HealthScribe,一个AI临床文档服务,标志着在这方面取得了重要进展。
然而,这些快速部署引发了人们对将医疗交由企业利益控制的担忧。这些LLM的专有性使其难以评估。为了追求利润,可能会修改或停止使用这些LLM,从而危及患者护理、隐私和安全。
迫切需要在医疗保健领域采取开放和包容的LLM开发方法。医疗机构、研究人员、临床医生和患者必须全球合作,共同构建医疗保健领域的开源LLM。这种方法类似于万亿参数联盟的做法,它将允许计算资源、财务资源和专业知识的汇集。





