AIGC发展历程
AIGC即AI Generated Content,利用人工智能技术来生成内容,是继UGC、PGC之后的新型内容生产方式,AI写作、AI绘画、AI作曲、AI剪辑、AI动画、AI交互等都属于AIGC的分支。
结合人工智能的演进沿革,AIGC的发展历程大致可以分为三个阶段:
早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏伊利亚克组曲。1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期,IBM创造了语音控制打字机Tangora。
沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年,世界第一部完全由人工智能创作的小说1 The Road问世。2012年,微软公开展示了一个全自动同声传译系统,可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。2014年,对抗生产网络GAN出现。2021年,CLIP模型出现;OpenAI推出DALL-E,主要应用于文本与图像交互生成内容。2022年,深度学习模型Diffusion扩散化模型的出现。
新模型下的AIGC所向披靡
过去,互联网的内容都是由用户生成、上传,AI只能协助人类完成一部分最简单、最基础的工作,无法独立生成内容,更不用提优质内容了。但这一状况也因Diffusion扩散化模型的开源应用而被打破,AIGC成为了继UGC之后的又一大内容生成方式。
相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括数据据量化、内容创造力、跨模态融合、认知交互力等,也正是这些独有的技术能力,让AIGC成为“不可替代”的新一代内容生成方式。
让我们期待,未来AIGC给我们带来的更多精彩!
AIGC通俗版介绍
你知道什么是AIGC吗?不知道?没关系,我来告诉你。AIGC就是人工智能生成内容(Artificial Intelligence Generative Content),也就是让AI自己动手创作各种各样的内容,比如图片、视频、音乐、文字等等。听起来很酷吧?那么,AIGC是怎么做到的呢?下面,我就用最简单的语言,给你介绍一下AIGC的基本概念和常见应用。
AI 工作原理
AI,就是人工智能。它的目标是让机器能够像人一样有智能,能够看、听、说、想、做。要实现这个目标,AI需要用到三个重要的技术:深度学习、神经网络和生成式对抗网络(GAN)。
神经网络
神经网络就是模仿人脑的结构,用一些小点(节点)和线(链接)来连接起来,形成一个复杂的网络。这些小点就像我们大脑里的神经元,可以接收和传递信息;这些线就像我们大脑里的神经纤维,可以控制信息的流动。
深度学习
深度学习就是让神经网络变得更深更强。深度学习把神经网络分成很多层,每一层都负责处理一部分信息,就像我们大脑里有不同功能的区域一样。这样,深度学习可以处理更复杂更高级的问题,比如识别图片里的物体或者理解人说的话。
生成式对抗网络(GAN)
GAN就是让两个神经网络互相斗争,从而提高创作能力。GAN有两个角色:一个叫生成器(Generator),一个叫判别器(Discriminator)。生成器的任务是创造出看起来真实的作品,比如图片、音乐等;判别器的任务是判断这些作品是不是真的,还是生成器做出来的。生成器和判别器不断地互相挑战,生成器越来越擅长造假,判别器越来越擅长识破。最后,生成器可以创造出非常逼真的作品,让人分辨不出真假。
AI大模型/预训练大模型
AI大模型就是一种超级强大的机器学习模型。它可以处理海量的信息,比如图片、文字、声音等,并且可以完成各种各样的任务。比如智能语音助手和图像识别软件都用到了AI大模型。
AI预训练大模型就是一种已经学过很多东西的AI大模型。它们通过在不同领域进行大量的训练,掌握了很多知识和技能。比如GPT就是一种预训练的大型语言模型,它可以自动生成各种类型的文本,比如新闻、小说、文章、对话等。GPT是目前自然语言处理领域最先进的自然语言生成模型之一。
开源
开源就是分享和合作的一种方式。在计算机编程中,当一个项目是开源的,意味着它的源代码是公开的,任何人都可以查看、修改和分享。比如你做了一个蛋糕,如果你把蛋糕的配方公开,让所有人都可以做这个蛋糕,甚至可以根据自己的口味改进这个配方,那么这个蛋糕的配方就是开源的。
自然语言处理(NLP)
自然语言处理(NLP)就是教计算机理解和使用人类语言的一种技术。比如你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你说的话是什么意思,你想做什么,然后才能执行正确的动作。自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究者处理语言数据,降低开发的难度,加快技术的进步。
AIGC
AIGC就是由AI自动创作生成的内容(AI Generated Content),比如图片、视频、音乐、文字等。AIGC就像一支神奇的画笔,拥有无限的创造力。这支画笔的特别之处在于,它是由AI打造的。AI利用它的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,打开了一个全新的创作世界,为人们提供了无数的可能性。
从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。
AIGC(AI-Generated Content)是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
1.1AIGC演化重要时间节点
AIGC发展历程图
图片来源于网络
OpenAI大语言模型发展进程
AIGC绘画模型 | 发布时间以及影响意义 |
---|---|
对抗生成网络(GAN) | 2014年 真正“教会”AI自己绘画 |
扩散模型(Diffusion Model) | 2020年 大幅提升AI绘画水平 |
stable Diffusion | 2022年 推动AI绘画商业化发展 |
1.2技术推进路线
生成模型在人工智能领域有着悠久的历史,可以追溯到1950年代,随着隐马尔可夫模型(HMM)和高斯混合模型(GMM)的发展。这些模型生成了语音和时间序列等顺序数据。然而,直到深度学习的出现,生成模型的性能才有了显著的提高。在深度生成模型的早期,不同的领域通常没有太多重叠。在自然语言处理(NLP)中,生成句子的传统方法是使用N-gram语言建模学习单词分布,然后搜索最佳序列。但是,这种方法不能有效地适应长句。为了解决这个问题,后来引入了递归神经网络(RNNs)用于语言建模任务,允许对相对较长的依赖性进行建模。随后开发了长短期记忆(LSTM)和门控循环单元(GRU),它们利用门控机制在训练过程中控制记忆。这些方法能够在一个样本中处理大约200个标记,与N-gram语言模型相比,这标志着一个显著的改进。同时,在计算机视觉(CV)中,在基于深度学习的方法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法是以手工设计为基础的功能,并且是有限的,可以生成复杂多样的图像。2014年,生成对抗网络(Generative Adversarial Networks,简称GAN)首次被提出,这是该领域的一个重要里程碑,因为它在各种应用中取得了令人瞩目的成果。变分自编码器(VAE)和其他方法(如扩散生成模型)也被开发出来,用于对图像生成过程进行更精细的控制,并能够生成高质量的图像。
2017 年,Vaswani 等人为 NLP 任务引入了 Transformer,后来被应用于 CV,然后成为各个领域中许多生成模型的主要骨干 。在 NLP 领域,许多著名的大型语言模型,例如 BERT 和 GPT,都采用 transformer 架构作为其主要构建块,与以前的构建块(即 LSTM 和 GRU)相比具有优势。在CV中,Vision Transformer(ViT)和Swin Transformer后来通过将Transformer 架构与视觉组件相结合,进一步发展了这一概念,使其能够应用于基于图像的下游。除了变压器为单个模态带来的改进外,这种交集还使来自不同领域的模型能够融合在一起,以实现多模态任务。多模态模型的一个例子是CLIP。CLIP是一个联合视觉语言模型,它将Transformer架构与视觉组件相结合,使其能够根据大量的文本和图像数据进行训练。由于它在预训练期间结合了视觉和语言知识,因此它还可以用作多模态提示生成中的图像编码器。总之,基于 Transformer 的模型的出现彻底改变了 AI 的生成,并导致了大规模训练的可能性。近年来,研究人员也开始引入基于这些模型的新技术。例如,在NLP中,人们有时更喜欢小样本提示,而不是微调,这是指在提示中包括从数据集中选择的几个示例,以帮助模型更好地理解任务需求。在视觉语言中,研究人员经常结合具有自监督对比学习目标的模态特定模型,以提供更强大的表示。未来,随着AIGC的重要性日益凸显,将引入越来越多的技术,为这一领域注入活力。
2.AIGC技术场景
2.1 技术场景
可以将AIGC相关技术场景拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理。
2.3.1 文本处理
目前,文本处理是AIGC相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。
2.3.2 音频处理
此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。
2.3.3 图片处理
图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。
2.3.4 视频处理
随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。
AI绘画应用Midjourney绘制的太空歌剧院
大语言模型ChatGPT
(以上图片来自于网络)
3.AIGC相关应用
AIGC是AI Generated Content的缩写,指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,拉开了智能创作时代的序幕。
在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例,向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。
趋势判断:人工智能产业经过多年发展,技术实现将从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。
近几年大语言模型发展时间线及相关应用
AIGC模型发展时间线及相关应用
- AIGC细分市场分析
3.1 AIGC+资讯行业
在信息化时代,社会中充斥着各种资讯,同时这些资讯也有高标准、需求大、时效强等特点。自2014年起,AIGC已开始用于新闻资讯领域,因此资讯行业是AIGC商业化相对成熟的赛道。
3.1.1 AIGC辅助信息收集,打造坚实基础
优质的新闻产出必定需要全面、高效、准确的信息收集与整理的基础上。按照传统的作业模式,工作人员需要亲临现场,通过各种手段才能获得足够且扎实的信息。现在的AI已经能对该环节高效赋能,例如科大讯飞的AI转写工具可以帮助记者实时生成文稿,自动撰写提纲、精简语句等,进而提高工作效率,保证最终产出的时效性。
除帮助获取一手信息外,AI也可以帮助精确检索二手信息,收集素材。在高性能的AIGC工具如ChatGPT出现后,就可以像常人对话一样直接提问并获得答案。虽然难免还是会有这样那样的问题,但作为工具而言,AIGC的意义已经非常明显了。
3.1.2 AIGC支持资讯生成,实现高效产出
在资讯写作等生成环节,基于自然语言生成和自然语言处理技术,AIGC已经逐步得到从业者和消费者的认可,因此有不少企业积极参与其中。以产出数量为例,与美联社、雅虎等外媒合作的Automated Insights,其撰稿工具Wordsmith能在一分钟内生成两千条新闻,且单条质量可比拟人类半小时的作品质量。
除了速度惊人,AI在准确度方面同样优势明显,能够很好的避免人类的粗心或计算等错误,在保证质量的同时减轻人类工作压力。这方面国内企业颇多,如新华社自研的写稿AI“快笔小新”、腾讯公司开发的Dream Writer、百度公司和人民网合作开发的“人民网-百度·文心”大模型都是其中的佼佼者。
3.1.3 AIGC助力内容分发,缓解人类压力
在内容分发环节,AI除了常见的个性化内容推荐外,也在逐步开拓全新应用场景,如虚拟人主播,以视频或直播的形式发放内容,打造沉浸式体验。如新华社数字记者“小诤”、央视网虚拟主播“小C”、阿里巴巴数字人“冬冬”、百度智能云AI手语主播等等,在未来,AI虚拟主播可能发展成媒体行业的标配。
3.2 AIGC+电商行业
自网络电商出现以来,社会的很多方面都被改变了,电商企业既是网络时代的受益者,也在推动社会发展进程中扮演关键角色。自十年前网络直播出现,带动带货模式变革以来,各大企业都在或多或少的面临转型问题。在数字世界和物理世界快速融合的当下,AIGC走在时代前沿,可以赋能电商行业的多个领域,可能带来新一轮的行业变革。
3.2.1 AIGC助力商品建模,改善购物体验
对比传统的购物模式,网购的一个典型问题在于只能通过图片了解商品,难以观察到全貌,也让以次充好的不法商家有机可乘。而AIGC技术可以通过视觉算法生成商品的三维模型,提供多方位视觉体验,节省沟通成本,改善用户体验,促成用户成交与转化。
除了三维建模,AIGC还有更高级的应用方式,如阿里巴巴的每平每屋业务就利用AIGC技术,实现线上“商品放家中”的模拟展示效果。这种业务是将AIGC功能植入手机淘宝和每平每屋APP端,用户用手机扫描家居环境让AI生成商品模型,在手机即可预览实物效果,进而改善电商家居的购物体验。
3.2.2 AIGC赋能服饰电商,助力降本增效
AIGC可以为商家提供大量创意素材,电商广告正是对创意营销素材需求量很大的领域,阿里巴巴的AI设计师“鲁班”就是应用于此。除了通用型广告,AIGC在电商服饰领域用途更多。一般说来,服饰领域都采用“小单快返”的模式,即先小批量生产多种样式的服饰产品投入市场,快速获取市场反馈,对优质产品加大投入,在试出爆款的同时减小库存压力。但这种方式对产品图片的需求量很大,如果有上千种服饰产品分别找模特再牌照修图,无疑会耗费极大的时间和成本。
成立于2020年的ZMO公司就运用AIGC解决这个问题,商家只需在ZMO平台上传产品图和模特图就可以得到展示图。借助AIGC,更多服饰相关的市场策略都可以低成本的实现。即使没有专业模特,虚拟人模特及广告也可以发挥作用,甚至还可以调整虚拟人的相貌来适配不同风格的服饰。
3.2.3 AIGC打造虚拟主播,提升直播效率
随着概念的传播,虚拟主播正日益成为许多商家的选择。与真人主播不同,虚拟主播可以全天无间断的直播,突破时间和空间的限制。2022年2月28日,经典美妆超级品类日活动开启时,京东美妆虚拟主播“小美”就出现在兰蔻、欧莱雅、OLAY等超过二十个美妆大牌直播间,开启直播首秀。虚拟人不仅五官形象由AI合成,嘴型也可以利用AI精确匹配台词,动作灵活且流畅,营造出极佳的真实感,为用户带来与真人无异的体验。
不过目前的虚拟主播更多的是与真人主播形成互补,或者为没有直播能力的的商家提供服务,还不能完全替代真人。虚拟主播要获得更强的交互能力,更好的与观众互动,做出实时反馈,还需要AIGC相关技术的后续发展。
3.3 AIGC+影视行业
随着虚拟技术的逐步到来,对影视内容的需求也在爆发式增长。为了满足观众日益刁钻的口味和挑剔的眼光,影视行业正全力提高产量,迭代技术,导致整个行业的工业化程度逐渐提高,同时变得精细且复杂,同时人的局限性也逐渐凸显。AI的应用无疑可以降本增效,让行业回归本真。
3.3.1 AIGC协助剧本创作,释放创意潜力
通过对海量优质剧本的学习,AI能根据特定需求快速生成不同风格或架构的剧本,在极大提高工作者工作效率的同时,AI也在激发创意,帮助产出更优质的作品。事实上,将AI引入剧本创作的做法早已有之。2016年,纽约大学研发的AI在学习了几十部经典科幻电影剧本后成功编写了剧本阳春以及一段配乐歌词。经过修改、调整后的成品只有区区八分钟,内容也平平无奇,但阳春在各大视频网站最终收获的百万级播放量依然证明外界对AI创作的兴趣很大。2020年,GPT-3被用于创作一个短剧,再次引发广泛关注。
通过这些早期试验可以看出AI在剧本创作方面的潜力,但要真正将其转化为生产力,还要AI更贴合具体的应用场景,做针对性训练,并结合实际业务需求开发或定制功能。海外一些影视公司如Final Write和Logline等都偏向垂直式工具,国内的海马轻帆公司深耕中文剧本、小说、IP等领域,也已经收获百万级用户。
3.3.2 AIGC推动创意落地,突破表达瓶颈
虽然AI能帮助人类更好的释放创意,但从剧本到荧幕仍是一段漫长的距离。从创意到表达的跨越,AI可以保驾护航,帮助人类化不可能为可能。举例来说,当前劳动密集型的影视生产方式难以满足观众对质量日益提高的要求。2009年上映的阿凡达令全球观众首次了解3D电影的魅力,此后沉浸式观影体验成了影视产业链上共同的追求。为了满足这种追求,影视特技与应用呈现井喷式发展,但后期制作与渲染,复杂程度也都水涨船高,传统的作业方式已经难以为继,而AI技术就有推动变革的潜力。
从技术角度来说,影视特技行业的作业流程是极为繁琐的,比如场景中的建模就需要从一草一木、一人一物开始,逐渐打造世界的雏形,再通过骨骼绑定和动作设计让模型活起来,之后的定分镜、调灯光、铺轨道、取镜头等等无不费时费力,后期的解算和渲染等工作同样如此。可以说在影视工作的每个环节都有大量重复性工作或等待时间,无形中拖慢了工作节奏。因此现在就有企业致力于解封流程生产力,比如优酷的“妙叹”工具箱,在动漫中实时渲染,帮助工作者实时把握效果或做出修改,节省了大量成本,减轻人员负担,目前已被多家国漫企业采用。
3.4 AIGC+教育行业
技术的飞速发展也将为教育行业带来颠覆,但是相比其他行业的快速发展,AI在教育中的落地部署似乎也慢了半拍。这其实是由教育行业本身的性质导致的,它的参与者众多,时间跨度很大,个体的差异性也很大,这让解决边界清晰、定义明确的AI难以适应。另外教育更注重人与人的互动和联结,也没有统一的理论模型,这都为相关AI的开发训练和落地部署增加了难度。但AI在教育行业绝非毫无用处,以技术手段推动行业进步也并非痴人说梦。
3.4.1 AIGC助力学习者,走向无限
生活经验告诉我们,从降生起人类就开始通过各种手段建立对世界的认识。识字前的手摸嘴咬、拳打脚踢,识字后的课本习题、书籍影视、实地体验等等无不如此。但是不论怎样,每个人的学习过程总会遇到这样那样的阻碍,而AI对学习者的意义就在于尽量摆脱种种束缚,最终从有限的自身走向无限的世界。
互联网时代的教育,是将部分内容转化为数字化形式并公开分发,助力资源流转。现在由AI辅助甚至主导的制作,整理学习资料,降本增效是显而易见的,资源的丰富度和易用性都将提升到新的高度。AIGC也可以在一些特定领域,如儿童绘本等,加速知识的生产效率并接入网络,最终提供给用户。通过补充有限的学习资源将促进教育公平,AI也助力教育资源的生产与分发。微软在这一领域就布局颇多,如微软亚洲研究院与华东师范大学合作研发的中文写作智能辅导系统“小花狮”,借助自然语言处理技术,实时为学生作文评分并分析原因,从而帮助学生进步。
3.4.2 AIGC赋能教育者,减负提效
老话说“师傅领进门,修行在个人”,教育者作为领路人的重要性不言而喻,对他们而言,AI就如同手上的火把,更好的帮助学习者引燃心中的学习火种。从目前的社会发展现状来看,教育者数量不足将会是长期现象,一位老师带几十位学生的“大班制”还将长期存在,在各种琐碎的答疑解惑,书山题海中奔波,AIGC就可以解决此类问题。现在作业/试卷自动批阅技术已经获得了广泛应用,AI不但可以判断对错,还可以生成针对性的评语,教师的作业批改用时大幅节约,可以更关注学生的个性化发展。除了助力解决重复性问题,AI还可以延伸感知。如基于电脑视觉技术,AI可以实时分析学生当前的情绪和状态等,帮助教师更好的了解情况。
通过对教育者的赋能,AIGC最终可以帮助实现教育的终极理想:因材施教,推广个性化教育。尽管AI还有可能加剧信息茧房的风险,以及对传统理念的挑战,甚至将人机器化,但就目前来看,未来还是值得期待的,以人为本的教育还是可能实现的。
3.5 AIGC+医疗行业
对医患双方而言,AIGC的应用与推广都是福音,比如AI预问诊的应用。虽然病人与病情千变万化,但总是有重复的地方,因此在预问诊阶段,AI就可以先了解患者的既往情况,让医生的诊断更有针对性,既缓解了医生的工作压力,也更好的服务了患者,医院内病人扎堆排队的现象也得以分流,可以说是一举三得。2021年,复旦大学附属眼耳鼻喉科医院与腾讯医疗健康签署合作协议,全面打造数字化医院新标杆、新范式,深入推进医院数字化转型,在预问诊等业务上快速落地部署。
对于传统医学的难点:心理疾病领域,AI同样可以参与其中。相较于过去的与人对话,AIGC聊天机器人只是个软件程序,用户不必担心隐私被泄露,况且还可以预置海量数据或知识模型,可以在更新迭代中保持冷静与中立。成立于2021年的聆心智能就是这方面的代表,基于生成式大模型开发的情绪疗愈机器人Emohaa,可以构建以生成对话为核心的交互式数字诊疗方案,通过对话与患者共情,及时提供情绪支持与心理疏导,促进患者心理健康。
3.6 AIGC+金融行业
金融业天然与数据和信息密切相关,各类公司都要从繁复的市场上搜集信息,并加以利用,创造价值。基于这样的现状,金融行业的信息化一直走在其他行业之前,具备数据质量好、维度全、场景多等特点,因此也成为了AI最早落地的商业化场景之一。
一般说来,AI在金融行业最常见的应用是通过机器视觉和学习的方式捕捉市场的实时变化,并利用实时数据进行分析,以此提高金融公司的财务分析效率与能力。类似的,AIGC在金融行业的应用则是以智能客服和智能顾问两种,基于自然语言处理技术与客户互动,此外还可以快速高效地完成一些人工难以完成的任务,改善服务体验。2017年4月,富国银行开始试点一款基于Facebook Messenger平台的智能客服,美国银行很快也推出了类似的智能助手Erica。国内金融行业的相关产业应用也较为成熟,多家公司或商业银行都推出过自己的AI业务,如2022年工商银行的“工小智”,邮储银行的半年报显示数字化转型成绩斐然,这些都表明AIGC应用于金融行业的巨大潜力。
全新的时代,AIGC(Artificial Intelligence Generative Content,即人工智能生成内容)正在重新塑造着内容创作生态。当常识能被机器识别,当艺术被重新定义,当创意不再需要人工,广告营销行业将迎来一场生产变革巨浪。数英将持续聚焦AIGC领域,通过资讯分享、认知科普、方法总结、深度访谈等,带领大家多方位了解AIGC。
本期内容,我们将梳理22个AI基础概念,带你搞清楚。
以ChatGPT、Midjourney为首的AIGC软件出现至今,不过短短半年时间,已经从方方面面浸入到人们的生活里,与此同时,大量专业术语涌入我们视野。
——————————————————————————————————————————————–
生成式AI与AI、AIGC、AGI、Bing AI,ChatGPT有什么关系
上面这些字母缩写到底是什么?
本文将尽可能用最直白通俗的语言,结合广告营销案例,帮你搞清楚互联网上常见的AI术语。
一、基本概念/理论
1、AI 工作原理
AI,全称Artificial Intelligence,人工智能。顾名思义,让机器发展出像人一样的智能,可以看到、听到、思考、判断,然后根据经验作出决策。
而AI之所以能够走向现实生活,影响到多个行业领域的生产工作,离不开三个重要技术的支撑:深度学习、神经网络以及生成式对抗网络(GAN)。
1)神经网络
神经网络是一种模拟人脑神经元连接的算法模型。**你可以把神经网络想象成一个大脑。**就像大脑由许多神经元相互连接构成,神经网络也由许多”节点”或”神经元”通过”链接”相互连接。这些链接就像我们大脑中的神经连接,可以传递和处理信息。
2)深度学习
如果说神经网络像一个普通大脑,深度学习则是一个更加“聪明”的大脑。 在这个“大脑”里,神经元被组织成许多层,这就像大脑的不同区域处理不同的任务一样。每一层都在学习和处理数据的不同特征或部分。这就使得深度学习能够处理非常复杂的问题,比如识别图像或理解自然语言。
3)生成式对抗网络(GAN)
GAN技术可以说是推动这次AIGC热潮的关键技术,有了它, AI才能够生成逼真的图像、音频和文本。
你可以把GAN的工作原理想象成是一个艺术家和艺术评论家的竞赛。艺术家(生成器)的工作是创造看起来真实的艺术作品,而艺术评论家(判别器)的任务是判断这个作品是否真的来自真正的艺术家,还是来自我们的AI艺术家。
艺术家(生成器)开始时可能不太擅长制作逼真的作品,而评论家(判别器)也可能并不擅长识别真伪。但是,随着他们不断的竞争,艺术家的作品变得越来越逼真,评论家的判断能力也越来越强。
在这个不断生成和对抗的过程中,AI逐渐学会了如何创作看起来非常真实的作品。
2、AI大模型/预训练大模型
AI大模型是一种机器学习模型。它可以学习和处理更多的信息,比如图像、文字、声音等,也可以通过训练,完成各种复杂的任务。比如智能语音助手和图像识别软件都会用到AI大模型。
这里的「预训练」,可以理解为像学生学习知识一样,机器也需要通过学习和训练来获取相关的知识和技能,来完成各种任务。AI预训练大模型可以通过不同领域的大量训练,掌握知识和技能。
由OpenAI公司开发的模型GPT就是一种大型语言模型, 也是预训练模型的一种,它能够自动生成各类文本,比如新闻报道、小说,也可以回答问题、写文章、进行对话。GPT是目前自然语言处理领域最为先进的自然语言生成模型之一。
3、开源
开源可以被理解为分享和合作的一种方式。在计算机编程中,当一个项目是开源的,意味着它的源代码是公开的,任何人都可以查看,修改和分享。
想象你正在做一份蛋糕,如果你将蛋糕的配方公开,让所有人都可以制作这个蛋糕,甚至可以根据自己的口味对配方进行修改和优化,那么这个蛋糕的配方就可以被认为是”开源”的。
4、自然语言处理(NLP)
自然语言处理(NLP)就像是教计算机理解和使用人类语言的一种技术。举个例子,当你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你的指令——这是什么意思,你想做什么,然后才能执行正确的动作。
自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究员处理语言数据,大大降低开发的门槛,让自然语言处理技术的进步的速度变快。
5、AIGC
是指由AI自动创作生成的内容( AI Generated Content),即AI接收到人下达的任务指令,通过处理人的自然语言,自动生成图片、视频、音频等。
打个通俗点的比方,AIGC就像一支马良神笔,拥有的无尽创造力。这支笔的特别之处在于,是由AI打造的。来自AI的理解力、想象力和创作力的加持,它可以根据指定的需求和样式,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,就像是打开了一个全新的创作世界,为人们提供了无尽的可能性。从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。
6、AIGC和Chat GPT的关系
AIGC是AI大模型,特别是自然语言处理模型的一种重要应用;ChatGPT则是AIGC在聊天对话场景的一个具体应用。
可以把AIGC看作是一个大的范畴,而ChatGPT是其中一个类别的小应用。
7、AIGC可以生成的内容
AIGC可以生成的内容很多,具体的种类和范围可能随着技术的发展而不断扩大。目前,一些常见的AIGC内容包括:
文字: 最基本的AIGC内容,可以与人类进行实时对话,生成不同风格的文字,诗歌、故事,甚至计算机代码等。
图像: 可以由文字或者图片,直接生成各种类型的图片。可以辅助人类进行绘画设计和发散想象力,大致可以分为图像自主生成工具和图像编辑工具两类。
视频: 可以通过文字描述,生成一段情节连贯的视频。比如广告片、电影预告片、教学视频、音乐视频等。也可以当作视频的剪辑工具。
音频: 可以生成逼真的音效,包括语音克隆、语音合成、文本生成特定音,音乐生成、声音效果等。
游戏: 游戏的剧情设计、角色设计、配音和音乐、美术原画设计、游戏动画、3D模型、地图编辑器等都可以让AIGC帮助完成。
虚拟人: 可以生成虚拟明星、虚拟恋人、虚拟助手、虚拟朋友等。指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中,并具有多重人类特征的综合产物。
二、常见的AIGC应用
(一)常用软件
8、ChatGPT
ChatGPT是由OpenAI开发的一款大型预训练语言模型,就像一个会聊天的机器人。
**它可以理解你说的话,并给出回答。**这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而ChatGPT只是通过分析和模拟大量的文本数据来”学习”如何合理地回应。
9、Midjourney
Midjourney是由美国旧金山的一家独立研究实验室创立的**图片类AIGC应用程序,**我们可以通过语言描述来生成图片。比如,输入一个苹果,它就会为你生成出一张苹果的图片。
10、Stable Diffusion
图片生成类AI大模型,可以在给定的任何提示词下生成图像,并支持根据关键词和图片检索。与Midjourney相比,生成图像的结果更可控。
11、Bing AI
Bing AI就是搭载了GPT-4的Bing浏览器,它能够更好地理解用户意图,提供更加智能化、个性化的搜索和服务体验。
12、文心一言
文心一言是百度全新一代知识增强大语言模型, 能够与人对话互动、回答问题、协助创作,具备更强的中文理解能力。
13、文心一格
文心一格是百度基于文心大模型的文生图系统,搭建的图片生成类AI大模型,可以根据用户输入的指令提示,生成相应的图片。
(二)AIGC在广告营销中的运用
随着AIGC的浪潮在现实中涌动,多个行业迎来了自我更迭的新机遇,广告行业也开始拥抱AIGC。我们可以从文本应用、图片应用、视频应用、市场分析的四个层面,探寻与AI共事的进击之路。
14、文本应用
当ChatGPT走进大众视野时,我们看到不少人感叹它强大的表达能力和迅猛的反应能力,无论向它抛出什么样的问题,它都能对答如流,甚至对于同一命题,也能给出许多不同的答案。这样蓬勃的新力量,正被更多品牌看见。
今年4月,户外运动品牌The North Face以重回山野为主题,对ChatGPT进行了发问,令人惊喜的是,ChatGPT给予了10000个答案。
15、图片应用
**AIGC的出现,不仅提速人们在绘图工作中的效率,更解锁了绘画创作的更多可能性,带来一些在艺术审美上的灵感。**不得不说,AI的想象力、审美力和创作力,已然被更多人所见。今年4月,飞猪旅行就使用了AI技术生成了一组世界风景图,并将画面投放至地铁广告里,来往的人都能一睹AI眼里的世界。
飞猪旅行玩得比想象更酷: 用AI生成的世界风景图
16、视频应用
以往,制作广告的工作流是贯穿线上线下,线上对接脚本,线下注重执行,尤其是现场拍摄,一些不可抗力的因素会影响到计划进度。
如今,**随着AIGC的横空出世,内容生产的工作流正发生着不小的改变,创作者可以选择纯在线上完成广告任务。**即向AI发生任务指令,再通过线上的一些调试,便能形成一支广告片。就在最近,飞书发布了一支广告片探,便是纯由AI完成的。
17、其他营销应用
**AI不仅仅能够提供创意内容,还能帮助品牌与商家优化媒介投放和客户管理系统。**事实上,国内许多To B企业早就应用了AI技术,辅助客户优化营销效果。
比如,阿里妈妈发布的序列化智能投放技术,就是借助AI技术帮助商家实现合理投放;巨量引擎则使用了与GPT相同的transformer技术,帮助客户高效提升ROI。
三、AI的未来,机遇和挑战共生
18、多模态AI
在许多专家领袖对于AI的预言中,多模态AI是一个高频关键词。
多模态AI,即能够处理和理解多种类型数据(例如图像、文本、音频等)的人工智能。目前的AI技术大多只能处理文字数据,而多模态能够理解更多类型的信息。
比如,你在看一部没有字幕的外语电影,而你并不懂这种语言。如果有一个多模态AI,它可以同时理解电影中的视觉和听觉信息,然后把这些信息转化为你能理解的语言,为你提供实时的字幕。这就是多模态AI的应用场景之一,它可以处理并理解多种类型的信息,以帮助我们更好地获取和理解信息。
19、AGI
Artificial General Intelligence,即“人工通用智能”,这是另一个与AI未来相关的高频词汇。
它指AI能够在所有领域中,像人类一样学习各种知识,完成各种任务。AGI是人工智能的一种理想状态,也可以说是AI研究的终极目标,即让机器拥有与人类等同的智能。
现在的AI技术,虽然在特定任务上表现出超越人类的能力(如围棋、图像识别等),但它们仍然只是“窄”AI,仅限于特定任务。虽然研究者们对实现AGI的未来充满了希望,但这是否能在未来的某个时刻实现,以及何时能够实现,现在还不得而知。
四、AI领域新兴职业
20、提示词工程师
提示词工程师像是AI模型的导演, 负责设计和优化指导AI行动的语言提示。
他们了解AI模型的工作原理,并使用这些知识来优化语言提示,从而引导AI模型产生更好的结果。他们的工作可以涵盖多种任务,比如提升AI对问题的理解,优化AI的回答,甚至引导AI生成全新的内容。这项工作更偏向语言艺术和人工智能的交叉领域。
21、提示词艺术家
提示词艺术家是AI的艺术合作者, 用创意和技巧指引AI创建出吸引人的艺术作品。
他们可能会使用像Midjourney这样的图片生成模型,通过提供特定的提示词或语句,来生成新奇和独特的文本或图像内容。他们需要有深厚的艺术素养,同时也需要对AI模型的工作原理有一定的理解,以便能够精确地指导模型产生预期的艺术作品。
22、人工智能训练师
人工智能训练师就像是AI模型的教师, 他们主要关注如何训练和优化AI模型。
他们为AI模型提供训练数据,监督学习过程,并调整模型参数以改善其性能。这些工作主要涉及到机器学习和深度学习的知识,需要对AI技术有深入的理解。
以上是全网最全的关于AIGC的全面解读,希望对读者有用!深度了解AIGC是什么!