生成式 AI

来自中文百科,文化平台
跳转至: 导航搜索

生成式 AI(Generetive AI),是无监督和半监督的机器学习算法,其从数据中自我学习,并生成全新的、完全原始的数据,以保持与初始数据的相似性,可输出新的内容(包括文本、图像、视频和音频等)、合成数据和物理对象模型等。生成式 AI 被认为是一种衍生的新生产动力,是多领域数字化进程的底层技术,支撑服务知识工作和创造性工作,如自动编程、内容开发、艺术创作、媒体社交、商务、工程设计、增强/虚拟现实、数字孪生等,能降低相关边际成本,产生巨大的生产和经济效益。随着数字经济与传统实体经济不断融合,传统生成手段已经无法满足数字内容需求,供给侧产能瓶颈凸显。生成式 AI 应用下的合成数据可以用来解决训练数据不足的问题,如合成数据可以用以开发自动驾驶汽车,使用所生成的虚拟世界的训练数据集实施行人监测等。

技术的发展现状及态势

生成式 AI 技术自 1950 年代萌芽,1990 年代至 2010 年代中期从实验性向实用性演进,并随着深度学习算法及图形处理等技术的不断突破取得了显著的进步,如 2007 年诞生了第一部完全由人工智能创作的小说 The Road,2012 年微软推出自动英译中同声传译系统。自 2010 年代中期起,生成式 AI 进入快速发展阶段,随着生成式对抗网络(GAN)等深度学习算法的提出与迭代,生成内容的效果越发逼真,如英伟达于 2018 年推出能自动生成高质量图片的 StyleGAN模型,DeepMind 于 2019 年发布能生成连续视频的 DVD-GAN 模型,OpenAI 于2021 年发布可实现文本图像交互生成的 DALL-E 模型等。

生成式 AI 对与所输入数据的相关底层进行抽象化,从而便于模型生成新的内容。随着深度神经网络技术在大模型、多模态等方面的突破,推动生成式AI 不断升级,满足生成内容多样性等需求。目前已有的广泛使用的生成式 AI模型主要有生成对抗网络(GAN)、识别与提取器(Transformers)、变分自编码器(VAE)等,自回归模型(ARM)以及零/单/少样本学习等也正在推动生成式建模的优化,同时帮助减少对训练数据的需求,以及快速应用到不同场景与任务。

例如,无监督学习的生成对抗网络(GAN)通过使用生成器和鉴别器这两大神经网络之间的互相竞争,创建符合生成目标的内容。其中,生成器负责生成与源数据相似的人工数据,鉴别器则负责区分源数据和生成数据,以识别更近似源数据的数据。经多次交替循环训练后,生成器将通过调整参数以创建更近似的数据,直至鉴别器无法区分真假。又如,识别与提取器(Transformers)是强大的深度神经网络,用于理解文本、图像,是数据训练的关键,如深度学习语言模型 GPT-3、会话神经语言模型 LaMDA、预训练模型 Wu-Dao(悟道)等。Transformers 将一个序列转换为另一个序列,是一种半监督学习,其使用大型未标记数据集,以无监督的方式进行预训练,然后通过监督训练进行微调,以提高性能,从而模仿人类认知,对输入数据重要性进行测量,用以判断关键信息。而变分自动编码器(VAE)则是无监督的深度生成模型,由编码器(encoder)和解码器(decoder)组成,编码器将输入数据进行编码,转为压缩代码,解码器则从该代码重构原始数据。

生成式 AI 应用建立在大型模型之上,如 GPT-3 或 Stable Diffusion 等,并主要以插件形式搭建于现有软件生态中。目前的生成式 AI 应用主要是一次性的,未来随着模型更加智能,模型或将支持迭代,允许进一步修改、调整和优化。

生成式 AI 的优势

生成式 AI 的优势在于:① 生成的合成数据(Synthetic data)能大幅提高数据丰富度,增加稀缺数据,使用合成数据可以增加训练的数据量,以提升机器学习算法性能。合成数据是数据增强的低成本有效工具,也是一种隐私匿名化的方法。Gartner 预测,到 2024 年用于开发 AI 和分析项目 60%的数据将会是综合生成的。② 生成式 AI 支持提高人工智能交付的准确性和速度,能加快从内容生成到产品研发等创造性领域的创新周期,随着易用性的逐步提升,并结合自动化技术,生成式 AI 将推动数据分析、软件编程等产业革新。③ 围绕生成式 AI 的生态正在形成。生成式 AI 需要巨大的计算量,云服务、芯片制造等将从中受益。

生成式 AI 发展的障碍

生成式 AI 发展的障碍主要包括:① 安全问题和对生成式 AI 技术的负面使用,例如用于深度伪造、恶意软件、欺诈等,将会减慢其在部分行业的渗透速度,需要人工智能信任技术的发展予以弥补。② 围绕原创性和版权问题,生成式 AI 利用大量已有图像等内容数据进行学习,原始内容的创建者是否对生成内容拥有版权还存在争议。③ 在数据有限的情况下,生成式 AI 模型可能会产生不准确的内容,以及输出与性别、种族或文化等相关的歧视与偏见。④ 训练生成模型的高能耗、高成本,或将阻碍企业采用。⑤ 目前而言,生成式 AI 并非单一解决方案,是结合了多个碎片化、专业化技术及产品的工具组合,易用性还有待提升。⑥ 利用生成式 AI 生成的结果是否具有可重用性也面临挑战。

技术发展的竞争态势

生成式 AI 目前是大型科技公司和初创公司趋之若鹜的领域,纷纷投入大量资金实施技术及业务开发。2021 年,美国初创公司 OpenAI 率先推出了首个图像生成器 DALL.E,2022 年 4 月又推出了 DALL-E2,借助自然语言描述创建逼真的艺术作品。2022年,Meta公司陆续推出了名为Make-A-Scene 、Make A Video的 AI 生成程序,其中,Make-A-Scene 可实现文本到图像的生成,而 Make A Video则进一步实现了文本到视频的生成,被认为是生成式 AI 技术的重大进步。

谷歌公司(Google)近期也密集发布了一系列生成式 AI 模型。2022 年上半年,谷歌推出了两种新的文本到图像模型——Imagen 和 Parti。Imagen 结合了 Transformer 语言模型和扩散模型,具备优异的语言理解能力和逼真度,首先生成低分辨率图像,再逐级超采样,从而提高图像分辨率;Parti 则属于自回归模型,模型规模最高可扩展至 200 亿参数,随着参数的扩大,生成图像的细节越精细,错误也会随之降低。谷歌还发布了两款文本转视频工具——Imagen Video 与 Phenaki,这两款工具各自在视频质量和视频长度上各有千秋。

英伟达(NVIDIA)近年聚焦元宇宙等数据生成应用场景,推出了图像生成器 GauGAN 、交互式 AI 化身生成平台 Omniverse Avatar、合成数据生成引擎Omniverse Replicator,以及 DLSS 深度学习超级采样技术(Deep Learning Super Sampling)等。其中,DLSS 作为一种图像重建的神经图形技术,可以将较低分辨率的图像输入,转化输出为更高分辨率的全新图像,能为游戏渲染等提供支持。

微软亚洲研究院推出了多模态模型 NUWA ,根据文本、视觉或多模态输入生成图像或视频,支持多种艺术作品创建,如文本到图像或视频、图像补全、视频预测等。2022 年,微软亚洲研究院又推出了无限视觉生成模型NUWA-Infinity,可生成任意大小的高分辨率图像或长时间视频。

此外,许多初创公司也参与开发了一众流行的生成式 AI 模型,例如 Craiyon,Midjourney,Stable Diffusion 等。

技术产业化的前景

生成式 AI 技术助推内容创新,预计将会在构建元宇宙中大展拳脚。生成式AI 可用于文本生成、图片生成、音频生成、视频生成、软件代码生成等,目前已应用于艺术设计与创作、语音导航、有声阅读、新闻播报、游戏创建、影视及剧本创作、媒体广告、社交媒体与数字社区等融合听说读写等内容生成领域。如生成逼真的图像,实现图像(或音乐等)类型和风格的转化,草图到真实图像的转化,文本到图像、文本到语音、2D 内容到 3D 的自动转化,增强图片或视频的分辨率,虚拟物理场景的生成,甚至劣迹演员的智能换脸,已故演员的声音重现,复原老电影或旧图像等。元宇宙中,多模态数字人、数字资产等数字内容也将依赖生成式人工智能。

生成式 AI 在科学发现和技术商业化应用方面迅速发展,如在生命科学、医疗保健、制造、材料科学、汽车、航空航天、国防和能源等行业具备巨大应用潜力和市场,主要参与营销、设计、建筑和内容等创造性工作。医疗领域,生成式 AI 可用于创建描述疾病发展趋势的医学图像,参与药物研发,识别早期潜在疾病以及时制定有效治疗方法,借助合成数据提高手术准确性,以及结合 3D打印等技术绘制假肢、有机分子,将 MRI(磁共振成像)转化为 CT 等。如DeepMind 公司的 AlphaFold 模型可以仅根据基因序列预测生成超过 100 万个物种的 2.14 亿个蛋白质 3D 结构;2021 年,国内的英矽智能科技公司(Insilico Medicine)利用生成式 AI 全球率先生成和发现具有全新治疗靶点的分子;IBM目前正在使用生成式 AI 研究抗菌肽(AMP)以找到新冠肺炎治疗药物。Gartner预计到 2025 年超过 30%的新药和新材料将使用生成式 AI 发现。品牌营销领域,生成式 AI 可用于个性化营销和沉浸式体验,如虚拟试装、虚拟主播、虚拟货场等,借助音频、视频的生成推动开发商业广告及营销创意,以及通过学习现有数据来预测目标群体对广告和营销活动的反应,来辅助客户细分定位,以及强化追加销售和交叉销售战略。办公和商务领域,生成式 AI 可应用于如文案创作、提升视频会议效果、消除噪音、图像处理等。制造领域,生成式 AI 结合数字孪生等技术能推动产品研发,加速芯片设计和软件开发,设计和开发特定新材料,如优化催化剂、化学品、香料等,利用合成数据还可以进行质检等。物流和运输领域,如针对高度依赖定位的业务,生成式 AI 可用于准确将卫星图像转换为地图视图等。安保领域,生成式 AI 可应用于身份验证,如从不同角度拍摄照片并创建正面照片,为人脸识别和验证系统等安检服务提供帮助。

此外,生成式AI 还可以用于隐私保护,增强机器学习,以及理解虚拟和现实世界中的更多抽象概念等。

参考文献

[1] AI Multiple. A Complete Guide to Generative AI in 2022 [EB/OL]

[2] Altexsoft. Generative AI Models Explained [EB/OL]

[3] Analytics Insight. What is Generative AI, Its Impacts and Limitations? [EB/OL]

[4] Gartner. 5 Impactful Technologies From the Gartner Emerging Technologies and Trends Impact Radar for 2022[EB/OL]

[5] Gartner. Hype Cycle for Artificial Intelligence 2022[R]. 2022.

[6] 中国信通院、京东探索研究院. 人工智能生成内容(AIGC)白皮书 [R].2022

[7] 中国信通院. 人工智能白皮书(2022 年)[R].2022

参见