生成 AI——2023年及未来几年的令人兴奋的技术飞跃

2023是否是新兴人工智能的一年?如果是,我们是否在通往通用人工智能和超级智能的正确轨道上?

Motion generation with Leonardo.ai based on DreamShaper v7 fine-tuned model. Prompt “colorful smoke moving around, camera zoom in.” by LordGarmadon.

Andi Sama — CIO,卓越协同能源公司

2023年,“生成式人工智能(Generative AI)”一词开始占据了世界科技新闻的主要部分。由于微软资助的研究机构OpenAI在2022年11月免费发布了名为chatGPT的基于文本的与人工智能对话的应用程序,高价值的人工智能研究开始对普通大众开放,不再仅限于那些由顶级资助的高新技术亿美元实验室内部的巨头们所能接触。在这个应用中,我们作为人类可以用自然语言与机器进行交流,就像我们与另一个人类进行沟通一样。

打开潘多拉之盒- chat-GPT

chatGPT基于GPT(生成预训练变换器)这个基础模型。在2022年11月推出时,chatGPT基于GPT-3.5(免费版本),后来升级为GPT-4(付费版本)。基础模型是一个神经网络模型(主要基于2017年引入的变换器架构),它在大量数据上进行训练,通常是从互联网上获取的所有可访问数据,作为起点。GPT是一种基于大量数据训练的自然语言处理(NLP)深度学习架构,因此被称为大型语言模型(LLM)。

OpenAI发布的chatGPT引发了其他人发布相似的基础模型及其应用。以下是目前已发布的模型列表,且持续增长。这些发布的LLM基础模型是在不同的数据集上训练的。然而,它们共享同样的原则,即它们是在大量的数据上进行训练的。

  • Google(基础模型:Gemini)。模型的大小从18-32.3亿个参数开始,其目标是下一代Google Pixels。还有更大的模型可用,例如通过Google vertex.ai访问。
  • IBM(基石模型:Granite)。该模型的参数数量为200亿个。使用Granite的应用之一是Watsonx.ai。
  • 元数据/脸书(基础模型:Llama2)。7到700亿参数。与其他模型不同,这些模型是开源的。我们可以在一台基于Windows的笔记本电脑上使用Intel i7处理器和16GB的RAM(无需GPU),运行llama2–13b(130亿参数版本),尽管性能相对较慢,每秒只能处理约0.5到2个标记。
  • 微软(基于GPT-4的基础模型)。微软在OpenAI上大举投资,因此此模型基于GPT-4构建而成。

  • OpenAI(基础模型:GPT-4)。据说它拥有8 x 2200亿参数,相当于1.7万亿个参数。
  • 三星(初始模型:高斯)。预计下一款三星旗舰智能手机型号S24将在2024年第一季度使用此初始模型。

生成式人工智能的崛起

构建LLMs的基本要素包括大规模数据集、庞大的神经网络架构和巨大的计算能力。虽然我们认为2023年是经过细化调整的LLMs和提示工程的进展年份(更专门的LLMs是由基础模型采用不同方法构建的),但由于资源需求庞大,世界上只有少数几家公司能够构建这种基础模型。

虽然各种神经网络结构在2010年之前就已经在讨论和实验中存在,但2012年(ImageNet数据集)大规模数据的可用性以及由GPU(图形处理器)提供的广泛计算能力,尤其是NVidia公司的贡献,真正推动了人工智能研究的进步。

获取数据集只是其中一件事情。更不用说存储和处理大量获取的数据集来训练基础模型了。曾经使用的神经网络架构是源自变压器架构。真正的挑战是训练数十亿甚至数万亿个神经网络参数。这就需要配备数千个高端GPU并行运行的计算能力来进行训练。更不用说功耗、CPU(中央处理单元)、I/O(输入/输出)和存储需求了。

多模基础模型

除了生成文本的LLM之外,基于transformer架构的基础模型还可以生成图像、语音、代码和视频。这是一个多模态的基础模型。

多模态意味着该模型将能够生成除文字以外的更多内容。除了生成文字外,该模型还可以创建图像、语音、代码和视频(未来还可能有其他内容)。

chatGPT,例如。它只能生成文本(包括生成代码)。然而,chatGPT Plus或API可以做更多的事情,OpenAI的DALL-E 3是一项付费服务,可以从文本提示生成文本。还有一个OpenAI Whisper API可以从语音生成文本。

微软必应就像chatGPT一样。微软必应图像创作者、MidJourney和Leonardo.ai是可用的应用程序,可以通过提供文本提示生成图像。

Image generation with Leonardo.ai, generated on December 27, 2023 based on AlbedoBase XL fine-tuned model. Prompt” “(Ultra Long Exposure Photography)) high quality, highly detailed, Colorful beautiful young woman like Jennifer Lopez silhouette neon dots, beautiful silhouette, Electronic devices such as a very light gray PC in the background, by asama inspired by yukisakura, high detailed,”
The image was generated by DALL-E 3 API on Dec 24, 2023. Prompt: A huge golden dragon with the text “AI” in 3D style with white, blue, and orange colors. The text has a reflection on splashing water — a photo-realistic image.

与其他模型类似,三星高斯(Samsung Gauss)是一个多模态基础模型,能够生成文本、图像和代码。

接下来是什么

2024年及其以后将是令人兴奋的时期,因为将会建立并发布更多的多模态基础模型。这一进展自2023年已开始,我们将很快看到更加先进的模型问世。想象一下不同类型商业应用的潜在使用案例,例如。

从ANI到AGI和ASI的路径

尽管我们在2023年看到了很多进步,但我们可能仍需要一些时间来达到人工通用智能(AGI)。然而,人工通用智能的定义也有不少种类。我们现在处于人工狭窄智能(ANI)阶段,并且目标是实现AGI。

(梅雷迪思·里格尔·莫里斯等,2023年)Deepmind提出了六个级别(0级到5级)的自治性,如下表所示。从0级(无人工智能),人类完成所有工作,一直到5级(ASI —— 人工超级智能),即完全自治的人工智能。我们目前处于3级(新兴AGI —— 新兴人工通用智能)。

Mike Wooldridge来自Royal Institutes (Mike Wooldridge, 2023) 主张我们可能能够达到以下所列的智能的最低水平(“增强型LLMs”和可能的第三种“能够执行人类可以执行的任何基于语言的任务的机器”)。机器离开发出类似人类的意识还有很长的路要走。当前的显著改进仍在于基于语言的任务。具备人类能力的人工智能机器人(例如处理洗碗机等)仍然需要能够模拟人类的能力,就像几乎任何人都能做到的一样。

迈克在“普通智能的不同类型”标题下提供了四个AGI水平,如下所示:

  • 可以做任何人类能做的事情的机器。
  • 可以完成人类所能进行的任何认知任务的机器。
  • 可以完成人类能够完成的任何以语言为基础的任务的机器。
  • 增强型LLMs。

2024年新年快乐。

参考资料

  • Andrew Widjaja,Andi Sama,2023年,《[生成AI] 尝试使用GPT-4和Dall-E 3》,https://andisama.medium.com/generative-ai-experimenting-with-gpt-4-and-dall-e-3-6beada36323e。
  • 安迪·萨玛,2023年, “Society 5.0,” https://medium.com/@andisama/society-5-0-professors-talk-summary-by-prof-dr-peter-cochrane-obe-d-sc-ac605ede3b6f.
  • 安迪·萨玛,2021,“尝试使用GPT-3,OpenAI最先进的语言模型”,https://andisama.medium.com/experimenting-with-gpt-3-openais-most-sophisticated-language-model-900e5f274077。
  • 基尔·勒古,2023年,“生成人工智能的历史”,https://medium.com/@glegoux/history-of-the-generative-ai-aa1aa7c63f3c
  • 拥抱界面,2023年,“AI社区构建未来:机器学习社区合作模型、数据集和应用的平台”,https://huggingface.co/。
  • 马蒂亚斯·巴斯蒂安,2023年,“GPT-4拥有超过1万亿个参数——报道”,https://the-decoder.com/gpt-4-has-a-trillion-parameters/.
  • Meredith Ringel Morris等,2023年,“AGI的级别:在AGI之路上实现进展”,https://arxiv.org/abs/2311.02462。
  • Mike Wooldridge,2023年,“生成AI的未来是什么?— 图灵讲座”, https://www.youtube.com/watch?v=b76gsOSkHB4。
  • Mukund Kapoor,2023年,"100个最佳编码提示用于ChatGPT",https://www.greataiprompts.com/chat-gpt/best-coding-prompts-for-chat-gpt/
  • OpenAI,2023a,“GPT-4是OpenAI最先进的系统,能够产生更安全、更有用的回应。”,https://openai.com/gpt-4.
  • 开放AI,2023b,《OpenAI API参考文档》,https://platform.openai.com/docs/api-reference。
  • OpenAI,2023c,“提示工程”,https://platform.openai.com/docs/guides/prompt-engineering。

  • PromptBase, 2023,“Midjourney, ChatGPT, DALL·E, Stable Diffusion及更多Prompt Marketplace”,https://promptbase.com/。
  • SWG,2023,“Sinergi Wahana Gemilang在Facebook上”,https://www.facebook.com/SinergiWahanaGemilang。

2023-12-30 04:22:18 AI中文站翻译自原文