生成式人工智能(AIGC的逻辑与应用)生成式人工智能AIGC的逻辑与应用目录TOC\h\h第一章初识生成式人工智能\h纵观AI产业版图\h决策式AI和生成式AI\h从大数据到大模型\h生成式AI市场格局\h聚焦AIGC:内容皆可生成\h文本生成\h图片生成\h视频生成\h生成式AI的核心价值\h生成式AI聚焦于认知的逻辑层面\h生成式AI的优势\h生成式AI的价值\h里程碑式的存在——ChatGPT\hChatGPT发展历程\h各大公司纷纷入场\hChatGPT的应用\h第二章AIGC的底层逻辑\h生成式模型基础\h深度学习的前世今生\h深度学习的经典模型\hGAN\hTransformer和ChatGPT模型\h序列到序列(seq2seq)\h注意力机制\hTransformer\hGPT系列模型\hDiffusion模型\h什么是Diffusion\h文本到图像\hStableDiffusion\h第三章功能分析:AIGC能生成什么内容?\h生成文字:新闻、报告、代码都可一键生成\h新闻生成\h报告生成\h代码生成\h描绘图像:分辨率、清晰度、真实性与艺术性\h图像生成的突破\h生成艺术风格图像\h其他顶尖平台\h音频制作:精准还原、实时合成\h音乐生成\h语音克隆\h跨模态生成\h影视创作:海量场景任你选\h剧本创作\h角色和场景创作\h后期制作\h互动娱乐:游戏中的生成式AI革命\h游戏内容生成\hNPC\h创新型AI游戏\h第四章商业落地:AIGC的产业应用与前景\h研发设计:设计能力样样俱全\h外观设计\h结构设计\h药物研发\h生产制造:“L4级别”的智能控制\h机器人控制\h多机器人协同\h工业质检\h供应链管理:库存计划可自动编程\h供应链领域的AI应用\h需求预测\h库存管理\h市场营销:营销文案不再发愁\h营销方案\h营销文案和图片\h营销沟通\h客户服务:贴心服务打动客户\h更有效的沟通\h知识库管理\h客服质检\h第五章主动还是被动?决胜AIGC\h展望未来:AIGC是否是新一轮的技术革命?\hAGI\h从AIGC走向AGI\h新一轮内容革命的起点\h智能并非万能:AIGC的优势与瓶颈\hAIGC的优势\hAIGC变革业务流程\hAIGC的瓶颈\h我们的工作机会还在吗?\hAIGC能否取代内容创作者?\h人工智能会取代谁?\h我们该怎么办?第一章初识生成式人工智能现象级产品ChatGPT的横空出世带火了AIGC和它背后的生成式AI,让不少人对使用AI工具跃跃欲试。在本章,我们会一起进入AI的产业国度,从决策式AI跃迁至生成式AI,对比这两种人工智能模型的异同,深度挖掘它们的应用场景和商业潜力,同时还会探讨“内容皆可生成”的生成式AI及其核心价值。在概览生成式AI后,我们会把视角转向具体工具,深入解析大众已经熟知的ChatGPT,了解这项“奇妙工具”背后的原理和发展历程。若你对生成式AI一知半解,可以在本章的内容中初步认识它,也能了解到近期最值得关注的生成式AI工具。纵观AI产业版图如果要选出2023年最热的几个话题,ChatGPT一定榜上有名。2023年初,ChatGPT席卷全球并成为流量热点,人们都在前赴后继地挖掘ChatGPT的各种潜能,探讨其未来发展趋势,甚至是与人类的关系。作为“人工智能家族”的大热应用,以ChatGPT为首的各大人工智能应用开始被越来越多的人关注,也引发了人们的更多思考。人工智能技术被称为当代三大尖端技术之一,近年来在人们生活中的“存在感”也越来越强,这都是产业飞速发展的结果。想要清晰地了解以ChatGPT为代表的新兴智能技术,完整地认识人工智能,我们可以先从其产业版图的发展和现状入手。其实,人工智能的发展、传播和被接受是经过了一段漫长的寒冬的。十多年前,它还只是一个不被人看好的小众领域,但是现在,它却已经成了街头巷尾的热点谈资,几乎任何事情都可以和人工智能联系在一起。短短十多年间,世界发生了天翻地覆的变化,新数据不断涌现,各种问题层出不穷,直到现在,人工智能的春天才算是真的到来了,各个领域都急需人工智能的帮助。这也是为什么人工智能的行业应用范围如此广阔,人工智能市场更是如一块一望无际的辽阔土地,有待进一步开发。如图1-1,这是一份人工智能的行业应用版图,不同的行业领域(零售、金融、医疗和教育等)与不同的职能方向(营销、风控和安全等)共同构成了一个人工智能应用矩阵,对于每个行业中的相关职能,人工智能都可以找到应用场景,例如在零售行业的供应链、营销、客服等方面以及金融行业的研发、营销、客服、风控等方面都已经有人工智能落地实践(图中蓝色表示)。但是,现在的人工智能只填充了广阔的行业领域中的一部分,还有更多没尝试和拓展的行业以及职能中的应用场景。图1-1人工智能的行业应用版图从产业的视角来看,人工智能包括基础层、技术层和应用层。其中,基础层是人工智能产业的基础,为人工智能提供数据及算力支撑;技术层是人工智能产业的核心,主要包括各类模型和算法的研发和升级;应用层则是人工智能面向特定场景需求而形成的软硬件产品或解决方案。那么,人工智能的产业规模发展至何种程度了呢?英国德勤(Deloitte)的报告中预测,世界的人工智能产业规模会从2017年的6900亿美元增长至2025年的64000亿美元,2017—2025年的复合增长率将达到32.10%,整体呈现出飞速攀升的趋势。另外,人工智能近几年成了各个行业在进行投资的热门选择。人工智能完全称得上是风头正劲,受万人追捧,为经济带来了十分显著的增量。在产业应用上,人工智能发展到今天,我们能看到其在各个行业都有用武之地:制造业、零售业、金融业、医疗卫生行业……它在一定程度上改变了组织的运转方式,使其可以更快更好地解决遇到的问题,并压低各类成本。站在消费者的角度,人工智能的出现也为广大的用户群体带来了更多的选择。总的来说,人工智能可以看作一块已开始被打磨的原石,露出了它璀璨的一角,它在推动世界经济发展的同时,也将深层次地改变人类的生活。为了进一步了解AI产业版图,下面我们从两种不同的AI——决策式AI和生成式AI谈起。决策式AI和生成式AI人工智能可从不同的维度进行划分。如果按其模型来划分(人工智能是由模型支撑的)可以分为决策式AI和生成式AI。决策式AI(也被称作判别式AI)学习数据中的条件概率分布,即一个样本归属于特定类别的概率,再对新的场景进行判断、分析和预测。决策式AI有几个主要的应用领域:人脸识别、推荐系统、风控系统、其他智能决策系统、机器人、自动驾驶。例如在人脸识别领域,决策式AI对实时获取的人脸图像进行特征信息提取,再与人脸库中的特征数据匹配,从而实现人脸识别。再例如,决策式AI可以通过学习电商平台上海量用户的消费行为数据,制订最合适的推荐方案,尽可能提升平台交易量。生成式AI则学习数据中的联合概率分布,即数据中多个变量组成的向量的概率分布,对已有的数据进行总结归纳,并在此基础上使用深度学习技术等,创作模仿式、缝合式的内容,相当于自动生成全新的内容。生成式AI可生成的内容形式十分多样,包括文本、图片、音频和视频等。例如,我们输入一段小说情节的简单描述,生成式AI便可以帮我们生成一篇完整的小说内容;再例如,生成式AI可以生成人物照片,而照片中的人物在现实世界中是完全不存在的。如图1-2,它展示的是国外一个网站生成的“不存在的人”的照片。总的来说,不管是哪种类型的模型,它的基础逻辑是一致的:AI模型从本质上来说是一个函数,要想找到函数准确的表达式,只靠逻辑是难以推导的,这个函数其实是被训练出来的。我们通过喂给机器已有的数据,让机器从数据中寻找最符合数据规律的函数。所以当有新的数据需要进行预测或生成时,机器就能够通过这个函数,预测或生成新数据所对应的结果。图1-2“不存在”的人图片来源:https://generated.photos/faces决策式AI和生成式AI作为AI模型的两个主要分支,顾名思义,在诸多方面都有相异之处。从宏观角度来看,决策式AI是一种用于决策的技术,它利用机器学习、深度学习和计算机视觉等技术来处理专业领域的问题,并帮助企业和组织优化决策。而生成式AI则是一种用于自动生成新内容的AI技术,它可以使用语言模型、图像模型和深度学习等技术,自动生成新的文本、图片、音频和视频内容。因此,决策式AI可以说是在对人类的决策过程进行模仿,但生成式AI就聚焦在创作新内容上。而从微观上看,这两类技术的区别就更加明晰了,我们就从技术路径、成熟程度、应用方向这三个角度来挖掘其深层次的不同(表1-1)。表1-1决策式AI和生成式AI的对比从技术路径来看,决策式AI的主要工作是对已有数据“打标签”,对不同类别的数据做区别,最简单的例子如区分猫和狗、草莓和苹果等,干的主要是“判断是不是”和“区分是这个还是那个”的活儿。生成式AI就不一样了,它会在归纳分析已有的数据后,再“创作”出新的内容,如在看了很多狗的图片后,生成式AI再创作出一只新的狗的图片,实现“举一反三”。从成熟程度看,决策式AI的应用更为成熟,已然在互联网、零售、金融、制造等行业展开应用,极大地提升了企业的工作效率。而生成式AI的“年岁更小”,2014年至今发展迅猛,堪称指数级的爆发,已在文本和图片生成等应用内落地。从应用方向来看,决策式AI在人脸识别、推荐系统、风控系统、机器人、自动驾驶中都已经有成熟的应用,非常贴合日常生活。生成式AI则在内容创作、人机交互、产品设计等领域展现出巨大潜力。我们来举一些生活中的例子,以更深入地了解两者在日常生活中的应用。喜欢购物的读者都知道,你在购买某一类产品后,购物平台会自动给你呈现诸多同类或相关商品。这件事的背后就是,电商平台会根据用户常看的商品,剖析用户和商品的关联,从而有针对性地为用户推荐内容,而这项功能就应用了决策式AI技术。从2003年开始,亚马逊就将此技术应用到了电商领域,推荐的商品精准地匹配用户需求,可以极大地降低用户的搜索次数,并因此增加产品的销售额。由此你可能会发现,平台似乎比你更清楚你需要什么,自然而然,自己的消费额也跟着上去了。平台也凭借这个功能,让更多用户心甘情愿地掏了腰包,来获取更广阔的商业价值。根据行业数据统计,在亚马逊的收入中约有40%来自个性化推荐系统,而推荐系统每年能给网飞(Netflix)带来10亿美元以上的产值。除了电商平台,新闻、音乐、视频等平台,也会利用个性化推荐系统为用户推荐内容,在剖析用户的长期兴趣和短期兴趣后,将精细化内容推送给用户,并可以通过对用户的停留、观看时间、点赞、收藏等行为特征的实时分析,精准刻画出用户画像,减少人工运营的介入,显著提升用户黏性,这已将人工智能的价值凸显无遗。在自动驾驶领域,AI可进行智能分析、识别路况,渗透率稳步提升。自动驾驶汽车可以借助决策式AI技术,分析判别各种路况,对多种物体进行识别与跟踪,提升行车安全。无须人工干预的自动驾驶汽车虽然现在并不成熟,但随着技术的迭代升级,有望获得更大的市场潜力。对于生成式AI,ChatGPT的出现让我们对其有了冲击式的关注和理解。因生成式AI功能强大、应用范围广泛,文字、图片、音视频内容相关的从业者在面对“强大助手”上线时,也会感觉到焦虑,恐被其取代。从可能性来讲,它可以进行文字生成语音、图像智能编辑、视频智能剪辑、文字续写或纠错等十分多样的工作,让大家摆脱机械劳动,把时间花在创意性工作上,给文字作者、翻译人员、插画师、视频剪辑师等带来极大的支持。不仅如此,生成式AI还能胜任部分由设计师、程序员甚至专业工程师从事的设计与编程类工作,在提升工作效率的同时让这些专业人士更能发挥所长,减少在初级工作上的时间投入。与此同时,生成式AI对于从业人员的素质和技能,也提出了新的要求。总的来说,决策式AI和生成式AI均可以帮助用户推进部分工作,如事件决策、创作内容等。可以说,人工智能的合理利用有助于提升客户体验,帮助企业降本增效,并抓住新的商业机会。如前文所述,数据和模型分属人工智能产业的基础层和技术层,无论是决策式AI还是生成式AI的应用都离不开数据和模型,下面我们进一步了解“大数据”和“大模型”是如何重塑人工智能版图的。从大数据到大模型无论是决策式AI还是生成式AI,以其现在的功能和潜力,都能为人类做很多工作,未来甚至有点万能,那么这么万能的技术,是怎么被“训练”出来的呢?这就要说到大数据了,决策式AI和生成式AI,其实都离不开用大量数据来训练模型。对于大数据,大众已经比较熟悉。顾名思义,大数据指的是海量的数据,但大数据并没有看上去这么简单,它还有多样性和高速增长的特性。图1-3展示了从2017年到2025年全球数据总量的增长趋势及预测情况。收集、存储、处理和分析各种形式和来源的大数据,可以帮助企业和组织迅速获得有价值的信息,并做出正确的决策,它还可以用于商业活动的改善,如此能提升工作效率,降低工作成本,并推动企业实现更大的增长。就如人类通过经历各类事件来积累经验一般,在人工智能领域,我们通过大量的数据来训练模型。图1-32017—2025年全球数据总量增长趋势及预测情况数据来源:国际数据公司发布的白皮书《数据时代2025》而随着深度学习的落地和发展,模型本身所需的存储空间在近年有了显著增长,最初的GPT就有1.17亿个参数,ChatGPT有1750亿个参数,最新的GPT-4参数数量更多,有报道称可能达到1T(即10000亿),但OpenAI公司其实并没有公布具体的参数数量,这些拥有海量参数的模型都被称为“大模型”。如图1-4,它展示了大模型参数数量变化趋势。这里我们提到了深度学习,这是一种受人脑的生物神经网络机制启发,并模仿人脑来解释、处理数据的机器学习技术,它能自动对数据进行特征提取、识别、决策和生成。你可能觉得这个词有点耳熟,其实它大规模地应用于自然语言处理(NLP)、计算机视觉、机器翻译等领域。深度学习的出现,为很多领域的工作带来了前所未有的精度和效率。人工智能行业也因深度学习收获了前所未有的发展速度,整个人工智能领域的发展都曾被它带动。图1-4大模型参数数量变化趋势大模型能分析处理海量的数据,在解决问题上取得更好的效果。本书的“主角”生成式AI就是大模型的产物。近年来,大模型在越来越多的行业和消费类应用中崭露头角,原因主要是它能够迅速有效地处理海量的数据,帮助个人和企业提升效率。大模型与人工智能技术相辅相成,随着人工智能技术的发展,大模型也会持续发展进步。另外,生活中日益普及的5G网络和弹性计算等基础设施,也会给大模型的发展创造更多可能性,使其成为不可或缺的内容生成工具。生成式AI市场格局2021年,高德纳咨询公司(Gartner)就曾预测,至2023年将有20%的内容被生成式AI创建,至2025年生成式AI产生的数据将占所有数据的10%(2021年不到1%)。2022年9月,红杉资本官网发布的文章《生成式AI:充满创造力的新世界》预测,生成式AI将产生数万亿美元的经济价值。据预测,2025年,国内生成式AI应用规模有望突破2000亿元,国内传媒领域应用空间超1000亿元。而且,生成式AI“八面玲珑”,它的应用场景十分广泛,目前不仅应用于文本、图片、音视频、游戏等数字媒体,还可以应用于制造业、建筑业等实体行业。在文本生成方面,生成式AI可以通过语言模型、神经网络和深度学习技术,快速创建大量有助于改善客户体验的内容,如新闻资讯、剧本、营销文本、智能客服等。其中作为经典应用的AI生成营销文本、智能客服等都已在许多行业广泛地应用;AI生成新闻资讯和剧本等功能大家也可以期待一下,或许以后结合了ChatGPT等突破性的模型,文字性工作真的能依靠它变得轻松不少。在图片生成方面,生成式AI可以通过计算机视觉来分析图片,生成营销素材、设计方案和艺术作品等,帮助节省人力成本和时间。另外,生成式AI还能在音频生成、视频生成和跨模态生成领域大展拳脚。在音频生成方面,生成式AI可以帮助使用者更好地分析、编辑和生成音频文件,从而帮助创作出优秀的音频作品。例如,克隆真人的语音、文本生成特定语音、作曲编曲等,生成式AI都能代替人类去做,并均已经广泛应用于市场。视频生成也是生成式AI的重要应用,它可以帮助使用者生成高质量的视频,如检测和删除特定片段、跟踪剪辑、生成特效、合成视频等。另外,大火的AI数字人也是它的“拿手绝活”。在李安执导的《双子杀手》中,工作人员就用AI创造了一个数字人物小克。威尔·史密斯在数字技术的帮助下同时出演了50岁特工亨利和23岁特工小克,该片实现了真实明星“年轻版”的数字化制作。在跨模态生成中,生成式AI能够根据文字生成创意图片、根据图片生成视频、根据文字生成视频,或根据图片或视频生成文字。对想象力丰富的朋友,或者影视行业从业者来说,这称得上是“工作神器”。图1-5就是一个根据文字“pandainaspacesuit”(穿着宇航服的熊猫)生成图片的例子。在游戏方面,生成式AI可以用于游戏开发,实现自动化的游戏设计,同时能够实现更好的游戏体验,如人工智能NPC(非玩家控制角色)等,说不定以后你玩的游戏就有人工智能的深度参与。图1-5根据“pandainaspacesuit”生成的图片生成式AI不光在这些数字经济领域广泛应用,在实体领域的潜力也非常大,如在建筑业等巨型垂直实体领域中,生成式AI所生成内容就不再仅局限于图片和文字,而是进入了信息形式更为丰富的3D(三维)设计领域。例如构建数字建筑模型时,生成式AI能帮助建筑师们产出3D建筑模型,让他们更好地理解项目。建筑师们能够使用AI图像生成应用来丰富建筑设计方案的细节,假如建筑师们向应用中输入较为初级的建筑设计方案,AI就能够在初级设计的基础上,继续产出较为细化的设计方案,以此来深化设计。建筑师们还可以随手绘制一个潦草的建筑场景线图,让人工智能来生成对应的建筑实景图。我们可以想象,随着手绘信息的增加,生成式AI输出的实景图也越来越稳定。图1-6所示的就是利用AI图像生成工具生成的建筑设计图。图1-6由AI图像生成工具生成的建筑设计图图片来源:https://stability.ai/blog/stablediffusion2-1-release7-dec-2022技术的浪潮层叠翻涌,人工智能已成为人类社会冲向未来世界的战舰,产业前景十分广阔。生成式AI更是一个突破性的产业发展方向,它不仅能给数字媒体和虚拟空间带来价值,还能促进实体行业的发展,在提升行业效率的同时优化原有的流程,创造出新的价值增长点,可以说是实体行业升级不可多得的机遇。聚焦AIGC:内容皆可生成当下,世人的目光被ChatGPT、GPT-4这些AIGC深深吸引。而在清楚地认识这些新事物之前,我们需要梳理一下它们的历史脉络,其实在数年硝烟弥漫的“内容大战”中,我们已经悄然经历了多种内容形式的迭代:PGC(professionalgeneratedcontent)、UGC(usergeneratedcontent)和AIUGC(artificiallyintelligentUGC)。PGC即“专业生产内容”,主要指具备专业背景的内容生产者所创造的内容;UGC则为“用户生产内容”,其内容的源头更偏大众化,人人都可作为用户进行内容生产;AIUGC则为人工智能与UGC的结合,人工智能参与到了用户创作内容的过程中。如今,在三度更迭之后,AIGC正式来袭。与PGC、UGC和AIUGC不同的是,在AIGC的概念中,“无生命的”人工智能成了完全的内容源头,“无生命主体”成了为人类创作内容的生产者。人工智能在人类社会的应用又取得了颠覆性的突破,透出了不同于以往的炫目光彩,吸引着人们不断探索。如图1-7,从PGC、UGC、AIUGC到AIGC,所对应的内容数量呈逐渐增加的趋势。图1-7内容创作的四个发展阶段从字面上看,AIGC就是利用人工智能自动生成内容的生产方式,它可以在生成式AI模型、训练数据等的基础上,生成文本、图片、音频、视频、代码等多样化内容,这种快速的内容生产方式给市场注入了令人兴奋的新鲜血液。AIGC的出现,使得各行各业都受益,使得人们的生活更加便捷。但在发展得如火如荼的同时,AIGC又引发了我们对其更深层次的思考。AIGC开启了新一轮的内容生产革命,它在多样性、质量、效率三个方面推动了内容生产大踏步前进。AIGC的出现,既可以满足消费型内容亟待扩充的需求,也可以快速产出多样化的内容形态,迎合多种细分场景,以AI作者的身份助力商业化浪潮的翻涌。或许我们现在正在看的某张图片、某段视频就是AI作者的“作品”,而我们却不自知。下面我们就围绕AIGC,对文本、图片、视频等不同的内容形式展开论述,看看AIGC究竟是如何“长袖善舞”,在各个内容形式中发挥作用的。文本生成AIGC生成文本目前主要被应用于新闻的撰写、给定格式的撰写、风格改写以及聊天对话,GPT是主流的文本生成模型之一。GPT的“学名”是生成式预训练模型(generativepre-trainingtransformer),这是一种用来分析和预测语言的人工智能模型,它可以帮助我们进行自然语言处理,例如机器翻译、自动文摘和快速问答。GPT的厉害之处是,它可以在文本中自动学习概念性内容,并自动预测下一段内容。也就是说,它可以根据上下文记住概念,并能够在短时间内直接输出相关内容。GPT背后的基础模型是一种新型的机器学习技术,它可以帮助我们分析大量的自然语言数据。它背靠一个大型神经网络,通过在已有文本库中找到有关自然语言的规律来学习。GPT无须人工设计特定的自然语言处理系统,可以根据已有文本,自动生成语法正确、内容相关的文本。有这样一个“神器”,很多内容就可以借助它的力量来完成了!GPT的发展目前经历了GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4几个阶段。对于GPT-1模型,我们可以这么理解:先使用海量没有进行标注的语料,预训练出一个语言模型,而后对语言模型进行微调,使之应用于特定的语言任务中。GPT-2则在GPT-1的基础上进行了多任务的训练,使用了更大的数据集,提升了语言处理能力。GPT-3则在训练的参数量、训练数据和训练费用上都高于前两者,能完成更加复杂的任务。OpenAI推出的ChatGPT是GPT-3.5的延伸,这是一款聊天机器人程序,能通过学习和理解人类的语言与人类对话,还能实现视频脚本撰写、营销文案写作、文本翻译、代码编写等功能。例如它在代码理解和编写方面的能力,就在程序员圈引起了广泛的关注:它可以看懂你输入的代码片段,帮你解读其中的含义,甚至可以根据你的要求帮你编写一段完整的代码。如此强大的能力,几乎颠覆了人们的认知,并引发了诸多关于“AI替代人类”的相关讨论。而当人们还沉浸在ChatGPT带来的无限遐想中时,就在2023年3月,OpenAI推出了史上最强大的模型——GPT-4。它在文学、医学、法律、数学、物理和程序设计等不同领域表现出很高的熟练程度,各方面能力已全面超越ChatGPT。不仅如此,它还能够将多个领域的概念和技能统一起来,并能够理解一些复杂概念。OpenAI在官网上演示了这样一个示例:向GPT-4展示一张图片(图1-8),并询问图中有什么有趣的地方。而GPT-4的回答相当精妙:这幅图的有趣之处在于,把一个大而过时的VGA(视频图形阵列)接口插入一个小而现代化的智能手机充电端口,这是十分荒谬的。GPT-4俨然拥有一个普通人的正常思维。要想深刻了解AI技术的发展,我们就需要到推动主体——企业中去。主打AI文本生成的Jasper公司位于美国加利福尼亚州,通过其产品的文本生成功能,用户可以轻松完成生成Instagram(照片墙)标题,编写TikTok(抖音国际版)视频脚本、广告营销文本、电子邮件内容等略显烧脑的重复性工作。AI文本生成功能一经推出,便给社交媒体、跨境电商、视频制作等多个新兴行业带来了巨大的颠覆力量。图1-8一张“有趣”的图片图片来源:/research/gpt-4除了Jasper以外,OpenAI更是近期谈论AI时不可绕过的热门企业。OpenAI是一家AI研究公司,成立于2015年,它旨在促进人工智能的安全可控发展。我们前文中提到的GPT这类卓越的自然语言处理模型,就是OpenAI首创推出的,这也使得OpenAI一跃成为AI行业的佼佼者。在自己进行技术创新之外,OpenAI也通过与微软等行业巨头的合作,将AI的应用推向更高的层次,这也将为人类的日常生活带来丰富的可能性。由于GPT有基于英文语料库且不开源的局限,国内的技术人员也在探索我们自有的自然语言处理模型。2020年11月中旬,北京智源人工智能研究院和清华大学研究团队就合作推出了中文预训练模型——清源CPM(ChinesePretrainedModels),我们也有了自主研发的类似于GPT的模型。图片生成你是否尝试过用AI生成图片呢?谈到AI生成图片,你第一时间又会想到哪个程序呢?你所使用的程序,很可能背后是由Diffusion(扩散)模型来进行技术支撑的。Diffusion模型是一种新兴的AI技术,它的灵感来源于物理学中的扩散现象:通过对图片不断加入噪声来生成一张模糊的图片,这个过程类似于墨水滴入水池的扩散过程;再通过深度神经网络学习模糊的图片并还原成原始图片的逆扩散过程,实现生成图片的功能。目前,Diffusion模型在视觉艺术和设计相关领域非常受欢迎。StabilityAI是一家全球领先的AI研究型企业,致力于开发前沿的人工智能模型。2022年,由该公司与另外两家初创公司共同研发的StableDiffusion模型发布,可以真正实现“一秒出图”,这个“一秒”不是夸张的代指,而是真正的事实。这就意味着你可以借助AI,实现自己瑰丽的梦境,复原宏大的想象,也可以为自己的小说配上极富幻想感的插图,不论它们有多超现实,你都可以通过AI把它们呈现在大家的眼前,让想象不再孤独。2022年,AI绘图突然大热,随着DALL·E2、StableDiffusion、Midjourney等图像生成领域现象级应用的纷纷兴起,AI绘画就像一阵旋风,首先在国外引起了不小的风浪,社交平台上出现了大量的AI绘画相关尝试和讨论。很快这场旋风就从国外刮到国内,引起了国内用户的广泛关注。这些应用到底有着怎样惊奇的功能,而它们背后又有哪些企业在推动这场AI绘画“旋风”呢?首先我们把目光放到Midjourney身上(图1-9),这是由同名研究实验室开发的AI绘画工具。在AI绘画领域,Midjourney降低了艺术绘画创作的门槛,用户只需要输入文字描述,计算机就会自动生成一张作品。Midjourney采用了深度学习模型,能够自动为用户生成高质量的绘画作品,包括素描、油画等,让用户的使用更加方便。毫不夸张地说,StableDiffusion模型是掀起AI绘画热潮的源头之一,StableDiffusion本身及基于它开发的绘画工具,让AI绘画引爆了舆论热潮。而其背后的公司StabilityAI在AI绘画模型爆火前的估值为1亿美元,爆火后的估值则为10亿美元,狂涨10倍,足见AI技术产出的大众化程序有多么强大的市场潜力。图1-9Midjourney官网与此同时,也有其他公司在AI绘画赛道“另辟蹊径”。如一家成立时间不到两年的公司PromptBase,主营业务为销售AI绘画工具的提示词,将提示词复制到Midjourney、StableDiffusion等AI绘画平台,可以实现精准快速的图像生成,让用户在探索提示词上少走弯路。若把目光转向国内,百度集团旗下的人工智能产品文心一格也在2022年8月宣布,用户只需要输入一段文字,并选择作画风格,文心一格就可以快速生成一幅画作。它以百度飞桨深度学习平台、文心大模型等技术为支撑,通过对海量优质图文的学习,经过多次迭代升级,如今已具备了更强的中文内容语义理解能力以及高质量图像生成能力,进一步满足国内用户对AI绘画的需求。视频生成AIGC视频生成,是一种基于人工智能的视频制作技术,它能够根据用户提供的文字提示,自动生成视频内容,而且还能够根据不同的需求调整视频的参数,以达到最佳效果。这在某种程度上是AIGC图片生成的延伸,视频生成的目标是生成连续图片(每张图片即一帧)的序列,它可以使用深度神经网络技术来生成高质量视频和动态内容,从而极大地提高视频的制作速度,也能够让视频内容更加逼真生动。AIGC视频生成已经在很多行业得到了应用,并取得了不错的效果。学校可以使用AI视频生成技术来制作动画片或教学视频,医院也可以使用AI视频生成技术来模拟手术过程,帮助外科医生更好地理解手术流程。我们体验过的视频游戏、虚拟现实(VR)、视频会议等,都可能与AIGC视频生成的技术有关。在AIGC视频生成技术逐渐成熟后,不少新兴科技公司也开始使用人工智能技术来进行影视制作,传统的影视制作方法与人工智能技术强强联合,能实现大规模的动态图像处理、自动剪辑、自动字幕添加、智能特效设计等,在影视制作中也能极大地解放人力和物力,压低制作成本。AI影视制作的案例颇多,如电脑艺术家格伦·马歇尔(GlennMarshall)的人工智能电影《乌鸦》(TheCrow)就获得了2022年戛纳短片电影节评审团奖。《乌鸦》的基础是视频网站上的短片Painted,马歇尔将其输入OpenAI创建的神经网络中,然后指导另一个模型生成图像,这样就生成了一段关于“荒凉风景中的乌鸦”的视频。在电影《速度与激情7》中,剧组将虚拟演员“放置”到视频中,实现虚拟与现实的完美融合,减轻人物和场景的限制,实现更多可能。这种效果是怎样实现的呢?这涉及多重技术支持:首先从之前的镜头中选择拍摄所需的动作和表情,建立数字成像模型,再渲染出虚拟的人物;在替身演员拍摄完肢体动作后,还会对脸部进行替代。通过这种方式,逝去的保罗·沃克在电影《速度与激情7》中“重生”,为影迷带来了慰藉。在AIGC视频制作赛道同样有很多“明星企业”。2023年2月6日,人工智能初创公司Runway官网宣布推出AI视频生成模型Gen-1,给竞争已十分激烈的AIGC赛道又添了一把熊熊烈火。Gen-1究竟有什么令人惊叹之处呢?它采用了最新的深度学习编码技术,可以将数据转化为精美的3D图像和视频,还能根据文字脚本、图片、视频剪辑等进行自动内容生成,创造出真实感十足的3D场景,帮助使用者体验真实世界中所不能触及的情景,比如现在无法实现的太空旅行、历史重现等,小说中的“穿越”情节可以在现实中上演,给生活带来了无尽想象和无限可能。此外,Runway还提到会不断改进Gen-1,让其以更低的成本和更快的速度,生成更精彩的内容,为人类提供无尽的创意。除行业新秀外,谷歌也推出了ImagenVideo与Phenaki两款视频制作工具。其中,ImagenVideo能够生成高清以及具有艺术风格的视频和文本动画,还具有高度的可控性、对世界知识和3D对象的理解能力,而Phenaki能够根据一个故事的时间线来生成视频。另一家硅谷巨头Meta(脸书部分品牌更名而来)推出的则是MakeA-Video,借助这款工具,可以生成非常富有想象力的奇趣视频(图1-10)。图1-10Make-A-Video生成视频示例图片来源:https://makeavideo.studio除了AIGC在内容生成中的多角度应用,根据这项技术所延展的内容工具还能“互通有无”。不同内容形式的模型之间并没有壁垒,而是可以联合使用,实现跨模态的内容生成。例如将GPT-3、StableDiffusion一起使用,可以实现流畅的修图功能,让修图不再费时费力,美工不再被甲方的需求折磨。这个功能为什么可以实现呢?如图1-11,我们给定一个输入图像和一个编辑图像的文本指令,这样它就能遵循我们给出的描述性指令来进行图片的加工编辑了。这听起来很智能,但实现此类功能的前提是要精细化地了解AI的话术并正确使用有效的提示词。如果没有正确使用提示词,很容易鸡同鸭讲。图1-11通过给AI发出指令,给雕像穿上衣服(使用instructPix2Pix生成)总之,从文本、图片、视频这几个主流的内容形式来看,AIGC已然在其中疯狂“攻城略地”,取得了难以想象的巨大进步,它可以辅助人类创作甚至自动生成内容。是否会有那么一天,人类陷入AI构造的信息茧房,逃不出数据库的桎梏,这仍需时间的考验。但从产业发展上看,AI的技术革新已经渗透到人类的日常生活,下沉为人人皆可使用的技术工具,这是非常可喜的变化。基于AI疾速发展带来的伦理和道德问题,或许会有一段时间的过渡期,我们须等待相关制度和规则的完善。但AIGC势如破竹地闯入了人类的领地,从此与人类相伴相生。生成式AI的核心价值从前文的叙述中,我们对人工智能模型的两个主要类型——生成式AI和决策式AI有了一定的了解,也明晰了它们各自的“特长”是什么。简单来说就是,决策式AI擅长的是对新的场景进行分析、判断和预测,主要应用在人脸识别、推荐系统、风控系统、精准营销、机器人、自动驾驶等;生成式AI主要擅长自动生成全新内容,主流的内容形式它基本都能生成,包含文本、图片、音频和视频等。二者在技术路径、成熟程度、应用方向上都有诸多不同。而在下文中,我们将聚焦生成式AI,围绕其核心价值来展开论述。生成式AI聚焦于认知的逻辑层面你或许想不到,决策式AI和生成式AI不但名称不同,从认识论的角度看,二者聚焦的认知层面也不相同。何为认识论呢?认识论即为与知识来源和知识判断相关的理论。如图1-12,在认识论中,人们的认识过程被描摹为金字塔形的结构,人类的认知会逐渐进阶,从数据、信息、知识、逻辑向形而上的哲学、信仰迈进,所认识内容的颗粒度和结构深度也会随之不断改变。图1-12生成式AI和决策式AI聚焦于不同的认知层面决策式AI聚焦“知识”层面,而生成式AI则聚焦高一级的“逻辑”层面,二者在内容认知程度上大不相同,但还未上升至认识论中的信仰和哲学层面。因此总体来说,决策式AI更多体现的是基于大量数据、信息形成的知识总结和判断,生成式AI体现的则是基于知识、信息和数据在逻辑层面产生的创新成果。后者是更接近人类智慧的AI技术,其内容的创新强度也更胜一筹。在实际应用中,决策式AI根据已有数据进行分析、判断和预测,已经在推荐系统、风控系统和精准营销等诸多领域为人类服务,而生成式AI作为在认识论模型中更高阶的一种,并非只分析已有数据,而是归纳已有数据进行演绎创新,也正在内容创作、人机交互、产品设计等诸多方面为人类贡献力量。生成式AI的优势如果在与决策式AI相对照后,你还不太理解生成式AI的优势,我们就用一个简单的比喻来描述一下这两者:决策式AI更像在做选择题,分类是它的强项;生成式AI则擅长做简答题,以创作为长处。从更深层次来说,决策式AI其实是有隐患的。我们现在来考虑这样一个场景:假设我们拥有一种分类效果很好的神经网络模型,这种网络有非常高的准确率,能游刃有余地处理常规的图像分类任务。但是,我们把一个加了少许噪声的图像输入模型后,这个模型居然发生了十分离谱的错误,而那张图像的改变在人类眼中十分微不足道。如图1-13,在一个测试中,技术人员给一张猫的图片(模型认为图像是猫的概率为90%,是马的概率为5%)添加了一些噪声,模型就离奇地将其分类成了马(模型认为图像是马的概率为90%,是猫的概率为5%)。这个案例说明,基于条件分布的神经网络模型貌似缺乏对图片的语义性理解,我们也可以以此来推测,与之相似的只对条件分布进行建模的决策式AI模型很难理解语义上的信息,也不易做出正确稳定的决策。图1-13噪声干扰决策式AI的识别能力对此我们可以设想一下,仅需少许简单的改变,决策式系统就很有可能放弃它所做出的判断和选择,它们又怎么能取得我们的信任呢?若我们所使用的系统建立在如此不稳定的模型之上,其日常的运行就会充满隐患,如婴儿般的模型很容易走入歧途,给我们带来意想不到的麻烦。比如,决策式模型遇到一个新样本时的输出不稳定,原本高价值的客户被误识别为低价值客户,或者原本风险较高的客户被误识别为低风险客户,这些问题在现实场景中发生是阻碍决策式AI在更多行业落地的重要因素。我们从模型背后的原理出发,会更好理解一些。决策式模型的原理是这样的:模型会从海量的猫和狗的图片数据中,了解到猫的外观和狗的外观差别非常大,当面对新的样本时,模型判断样本的外观和谁更相似,就认为样本是谁。而生成式模型则是这样:它从训练集中了解到了猫的特质(如大小、毛色、身形等个性化特征),而后从关于狗的数据中也了解到了这些特征,当面对新样本时,它就会先提炼其数据的特质,将之和猫、狗分别进行比较,两方都得到一个概率,哪组数据的概率较大,它就认为样本是谁。与决策式AI相比,生成式AI显然成熟得多,它可以学习人的思维逻辑,产出具备常理和特定规则的内容。其依托的生成式模型会关注结果是如何产生的,但生成式模型需要的是十分充足的数据量,这样才能保证模型能采样到数据本来的面目,所以生成式模型的速度相对来说会慢一些。与之相反,决策式模型对数据量的要求没有那么高,速度会更快,在小数据量下的准确率也可能更高。基于生成式AI背后的原理,它的功能如此强大也就不足为奇了。如最新的生成式模型GPT等,就可以生成一系列的内容,给予人类更多的方便和选择,让人类能享受从冗余工作中被解放的快感。从这个角度来说,生成式AI真是某些打工人的“福星”呢!生成式AI的价值生成式AI究竟有多么“万能”,以至于令人咋舌呢?我们就在这里做一个全面的介绍,展示生成式AI的核心价值,看看它是如何用强大的专业功能覆盖众多工作领域的。如果以粗放的标准来划分人类的内容生产工作,大略可以分为艺术创造性工作、设计性工作和逻辑思维性工作,而生成式AI在这三类均有涉猎,可以凭借强大的内容生产水平让人类产生“危机感”。如在艺术创作领域,绘画已然不再能难倒生成式AI了。2023年3月,我国诞生了首部AIGC生成的完整情节漫画。艺术家王睿利用AIGC,以小说《元宇宙2086》为蓝本,通过加噪点、去噪点、复原图片、作画这几个步骤,将文字转化成了可视化的内容,画面线条流畅、色彩绚烂,给人以强烈的视觉冲击,也在中国的科技艺术发展史上留下了浓墨重彩的一笔。AIGC创作的绘画作品甚至都进入了拍卖领域。2022年12月,AI山水画的首次拍卖落下帷幕,成交价为110万元。该画作是百度文心一格和画家乐震文续画的陆小曼未完成的画稿《未完·待续》。大家都知道,中国的山水画注重写意,很难模仿到神韵,而文心一格将陆小曼存世的画稿、书法作品等作为AI的训练数据,大量的数据“投喂”使得AI的创作颇具陆小曼画作的灵性,到了以假乱真的地步。除绘画外,歌曲创作领域也已经被AIGC“入侵”了,百度数字人度晓晓与龚俊数字人共同献声的《每分每秒每天》这首歌就是AI出品,从作词到编曲均由AI把控。演唱者度晓晓也大有来头,她是国内首个可交互的虚拟偶像,除了唱歌跳舞,主持也不在话下。喜欢看视频的朋友也离不开AI的帮助。谷歌研究院最近就发表了一篇论文,致力于将文本条件的视频扩散模型(videodiffusionmodel,VDM)应用于视频编辑,这个视频编辑框架可以创建动态相机运动、为图像中的事物设置动画等,未来大家也有机会利用这项技术制作自己的个性化电影。网飞发布的动画短片《犬与少年》也与AIGC有关。这个短片由AIGC制作,而且创造了一个“第一”——全球首个AIGC动画短片,人工智能小冰在这部动画里就利用自己的技术绘制了完整的画面和场景,让人类创作者有时间回归到更根本的创意性工作中去。在设计性工作领域,AIGC更是大展拳脚,平面设计、3D设计、服装设计、环境艺术设计等统统不在话下。有了AIGC在绘画创作中的先例,我们就不难看出它在平面设计中也必然很出色。在Midjourney等AIGC绘图软件中,只需要标明是T恤设计、丝巾设计还是插画设计、角色设计,就可以得到可投入使用的设计稿,独幅图案抑或是连续纹样,它都能轻松搞定。生成式AI还渗透到了3D领域,Magic3D就是GPU(图形处理器)制造商英伟达推出的一款应用,它会先用低分辨率粗略地对事物进行3D建模,然后进阶优化为更高分辨率。OpenAI的DreamFields更是不需要照片就能生成3D模型,把“无中生有”玩得透彻,现在,生成船、花瓶、公共汽车、食物、家具等的模型都不在话下。利用AIGC生成3D模型的技术,未来,游戏、电影、虚拟现实等领域都不再需要工作人员手动进行3D建模了,方便、高效了许多。你是不是也好奇AIGC是怎么在服装领域应用的?3D衣物建模是其背后的一项核心技术,随着技术的发展,甚至还能做到3D衣物重建和可控衣物编辑。国外的ProjectMuze是谷歌与Zalando电商合作,利用谷歌深度学习框架打造的AI服装设计师。其所构建的神经网络融合了超过600名时装设计师的风格和多种设计元素,只需用户输入性别、喜好、情绪等信息,它就能设计出一套独特的时装。虽然在AI与服装结合的道路上,我们还需要摸索进行高水准的设计,但在服装设计的产业布局中,AIGC将是不可缺少的一环。在你生活的城市中,AI说不定已经在进行市区的环境艺术设计工作了。谷歌发布过一款能帮助城市进行绿化工作的AI工具,人类能借助AI和航拍,绘制一张城市的“绿化地图”,并据此来生成绿化建议,用以解决全球变暖造成的极端高温天气问题。这款AI工具既高效又科学,取代了传统上昂贵的逐块研究绿化的方式。试想一下,在未来所有的城市中,公园、道路……只要能见到植被的地方,可能都是由AI规划并推动实施的,你会生活在一个由AI进行科学规划后建设的绿色城市。生活在这里,你应该也会被随处可见的植物治愈吧。在家装方面,“AI+家装”产业也发展得如火如荼。AIGC工具可以帮助家装设计师、从业者快速创作出设计图及方案,促进家装管理及服务智能化和精准化,推动“AI+家装”产业数字化应用升级;另外,引入、应用先进的智能对话技术,搭建人工智能客服服务体系,协助家装商家和用户更为及时和全面地追踪服务进度,能进一步帮助平台打造更加开放的家装内容和服务生态,提升家装体验。国内的一家科技企业群核科技成立了AIGC实验室,旨在拓展全空间领域AIGC,进行家居家装、商业空间、地产建筑等空间领域的AI设计生成和迭代创作。说不定以后为我们进行家居装修的都是AI设计师。说了这么多,你可能会认为,AIGC无非就是被“喂”了足够多的人类创作的内容,模仿大于创造。其实AIGC并不是“copy怪”,它还能从事非常需要逻辑思维的工作,像写代码这种专业工作它也能做。ChatGPT可以帮人写代码想必大家都已经知道了,但可以做到什么程度,大家可能并不太了解。现实中可能已经有读者用它解决过不少代码难题。除了知名度颇高的ChatGPT,aiXcoder公司推出的aiXcoderXL也是AIGC的代表,在2023年2月首次开放了代码生成模型的API(应用程序编程接口),让更多使用者能够利用人工智能提升软件开发的质量和代码撰写的效率,极大地提升应用程序的推进速度。从写代码这点来说,AIGC通过分析大量开源项目的代码,学习语言特征,动态生成新的代码,能够对不同类型的任务更加灵活、快速地进行开发。除了上文提到的众多领域,人工智能还进军医药领域。对此,“生物版ChatGPT”有话说。“生物版ChatGPT”的任务是生成蛋白质。在产业落地应用的场景中,许多从业者最关心的问题之一就是大分子药物,尤其是抗体等蛋白质类药物能不能使用AI“一键生成”。药企晶泰科技是AI药物研发的先行者,其自主研发了大分子药物设计平台XuperNovo,这个平台包括许多大分子药物从头设计的策略,其中有一款策略被称作“ProteinGPT”。如此命名的原因是ProteinGPT的技术路线与ChatGPT相似,ProteinGPT可以一键生成符合要求的蛋白质类药物设计。目前,ProteinGPT已经被正式应用于晶泰科技的各类大分子药物项目中,表现得非常好。绘画、影视、环境艺术、家装、代码、医药……似乎只有我们想不到,没有AIGC做不到的,相信未来AIGC将会在更多领域得以应用,给我们带来意想不到的应用效果。说了这么多,我们对生成式AI独特的价值和优势应该都有了不少认知。其实,生成式AI和决策式AI还能两相结合、强强联手,多层次、多维度地解决人类更多的烦恼,将我们从机械式的生硬工作中解放出来,提升内容生产的效率,当然前提是内容质量要过硬。为此,也需要技术人员对人工智能进行更多的研究、开发和测试,文明社会未来主要的突破口和增长点或许就系于AIGC之手。里程碑式的存在——ChatGPT近几年,人工智能技术领域高潮迭出,给我们引爆了一轮又一轮技术热潮,而刚进入2023年,人工智能界就出现了“新顶流”——ChatGPT。它最近肯定在大家面前疯狂刷屏,大家即使不了解它,也早就对这个名字耳熟能详了。那么它到底是什么呢?其实ChatGPT是一个由OpenAI公司推出的大型语言模型(largelanguagemodel,LLM),它能帮助开发人员使用自然语言理解来增强聊天机器人和智能应用程序的功能,可以处理各种任务,如撰写文章、提供建议、回答问题等。自2022年11月推出后,ChatGPT因其强大的功能爆红,用户数量暴增,仅2个月就达成了用户破亿的目标,成为史上用户最快破亿的应用。而达成这一目标,TikTok用了9个月,这足以说明ChatGPT的受欢迎程度了。ChatGPT的火爆其实不仅在于它聊天能力强,用户更多的是看重了它“十八般武艺,样样都会”。有人让它回答脑筋急转弯,它并没有被绕进去,很快就得出了答案;有人让它写一篇关于“秦始皇摸电门,赢麻了”的文章,它写得有模有样,并没有对这个离谱的主题提出质疑;有人让它写社交平台上的宣发文案,它连图形符号都用得难辨真假;甚至有网友训练它说北京话,在一来一回的对话训练中,它很快就学会了北京话的口语性表达,强大的学习能力不禁让人怀疑对面是不是有真人在操控。还有人让它写策划、写文案、编代码、写诗……这么一个具备强大功能的程序,当然会受到各界人士的欢迎。许多人让它帮助自己工作,成为代替自己的“二代打工人”。打工人爱它,学生党也爱它。美国在线教育供应商S的一项针对1000名美国学生的调查显示,超过89%的学生使用ChatGPT完成家庭作业,48%的学生用ChatGPT完成小测验,53%的学生用ChatGPT写论文。“ChatGPT风”简直席卷了大、中、小学,让学生党狂喜。但美国已经出台了相关政策,制止学生用人工智能完成作业,未来我们也需要正确引导孩子,让孩子以科学的方式接触这些先进的技术。据美国杂志PCMag报道,谷歌曾经给ChatGPT提供了面试程序员的问题,结果它不仅没被难倒,甚至还被判定为具备三级软件工程师的水准,简直让人瞠目。目前,ChatGPT已经开始入侵职场,根据职业咨询平台ResumeB的最新报告,在1000家企业调查样本中,49%的企业目前正在使用ChatGPT,主要应用在协助招聘、编写编码等工作中。报告还称,从2022年11月ChatGPT上线后,不少企业已经将ChatGPT投入了应用,在这之中,有48%的企业开始利用ChatGPT代替员工工作,25%的企业已经通过ChatGPT节约了75000美元以上的成本,这简直给部分岗位的工作者带来了失业的隐患!ChatGPT发展历程如前所述,生成式AI通过学习数据中的联合概率分布,对已有的数据进行总结归纳,再创作出新的内容。ChatGPT作为一款自然语言处理模型,通过学习语料中词汇之间的组合规律和逻辑,生成合理的接续,实现内容的创作。这类似一个“接龙”的过程,ChatGPT根据上文计算并生成下一个词,然后继续生成下面的词,从而完成一句话或者长文,也就是“自回归生成”。因此,虽然训练ChatGPT使用的语料都是现有的已经被创作出来的,但是其创作内容不是“抄袭”,不是简单的复制和粘贴,而是在现有语料的基础上学习词与词之间的逻辑,创作出新的内容。ChatGPT的能力并不是一蹴而就的,提到“神器”ChatGPT的前世今生,那可有太多故事了。其实ChatGPT的“前世”与Transformer(变换器)模型关系紧密,由于Transformer模型诞生于2017年,因此我们的故事得从2017年说起。2017年,谷歌大脑团队在神经信息处理系统大会发表了一篇名为《注意力是你所需要的全部》(AttentionIsAllYouNeed)的论文。这篇论文的作者在文章中第一次提出了一个基于注意力机制的Transformer模型,并且把这个模型首次用在理解人类的语言上,这就是自然语言处理。谷歌大脑团队利用非常多已经公开的语言数据集来训练这个最初的Transformer模型,而这个Transformer模型包括6500万个可调参数。经过大量的训练后,这个Transformer模型在英语成分句法分析、翻译准确度等多项评分上都在业内达到了第一的水准,世界领先,成为当时最为先进的大型语言模型。而Transformer模型从诞生之时,也极为深刻地影响了后续人工智能技术的发展道路。仅几年内,这个模型的影响力就已经渗透到人工智能的各个领域,包括多种形式的自然语言模型,以及预测蛋白质结构的AlphaFold2模型等。也就是说,它就是后续许多功能强大的AI模型的源头。在Transformer模型爆火后,有许多团队都在跟进研究这一模型,推出ChatGPT的OpenAI公司也是专注于研究Transformer模型的其中一家公司。在Transformer模型被推出还不足一年的2018年,OpenAI公司有了自己的技术突破,他们发表了论文《用生成式预训练提高模型的语言理解力》(ImprovingLanguageUnderstandingbyGenerativePretraining),还推出了具备1.17亿个参数的GPT-1模型。GPT-1模型是一个基于Transformer结构的模型,但训练它的数据集更为庞大。OpenAI公司利用一款经典的大型书籍文本数据集(BookCorpus)对GPT-1模型进行了模型预训练,这个数据集包括7000多本未出版的图书,并涵盖多种类型,如言情、冒险、恐怖、奇幻等。在对模型进行预训练后,OpenAI还在四种不同的语言场景下,利用多种相异的特定数据集对模型做了进一步的训练。而最终训练出的模型GPT-1,在文本分类、问答、文本相似性评估、蕴含语义判定这四个评价维度上,都取得了比基础Transformer模型更好的结果,因此也取代Transformer模型,摇身一变成为新的业内龙头。在发布GPT-1后的一年,OpenAI公司又公布了一个“升级版”的模型——GPT-2。这个模型的架构与GPT-1的原理是相同的,只是规模比GPT-1大了10倍多,具有15亿个参数,刷新了这种大型语言模型在多项语言场景中评分的纪录。在2020年,OpenAI公司再接再厉,推出了取代GPT-2的GPT-3模型——这个模型包含1750亿个参数。GPT-3模型的架构也与它的“前任”GPT-2没有本质区别,只是规模更大了。当然,GPT-3的训练集比前两个GPT模型要大得多:它包含两个相异的书籍数据集(一共670亿词符)、已经过基础过滤的全网页爬虫数据集(4290亿词符)、维基百科文章(30亿词符)。由于GPT-3包含太过庞大的参数数目,训练所需数据集的规模也非常巨大,因此成本也很高——保守估计,训练一个GPT-3模型需要500万美元至2000万美元。用于训练的GPU越多,成本越高,时间越短;反之也是如此。在使用中,用户通过提供提示词,甚至完全没有提示,直接询问,就可收获高质量的答案。由于GPT-3并没有给用户提供合适的交互界面,而且还有一定的使用门槛,所以使用过GPT-3模型的用户并不是很多。在2022年神经信息处理系统大会中,OpenAI公司再次向大家宣布了它的新突破,它又推出了全新的大型语言预训练模型:ChatGPT。GPT-3.5是ChatGPT的前身,也是OpenAI对GPT-3模型进行微调后开发出来的模型,在GPT-3.5诞生后,ChatGPT才横空出世。至此,我们所讲述的主角诞生,ChatGPT也是目前使用最为广泛的一款自然语言处理程序,简直称得上是“AI界的顶流”了!各大公司纷纷入场面对热烈的市场反响,国内的各大科技企业也纷纷入局,将“产业触手”深入人工智能这片蓝海,例如百度、阿里巴巴、360等国内科技巨头都先后发布类ChatGPT产品,以期抢占“中国版ChatGPT”的市场先机。而另一头,海外的科技巨头如大家熟知的微软、谷歌等企业,也都加速了在AIGC方面的相关布局。我们首先来看看国内一些科技巨头在相关产业的发展情况。近日有消息称,阿里达摩院正在研发类似ChatGPT的对话机器人,尚处于内测阶段,而且阿里巴巴还可能结合AI大模型技术与钉钉生产力工具,将二者的深度应用方式挖掘出来。关于ChatGPT在中国的布局,百度的被关注度也很高。百度作为国内领先的AI技术公司,发布了中国的类ChatGPT应用“文心一言”,其多答案回复、智能生成等相关功能,会渐渐在百度的搜索引擎内上线或内测,由此可以看出,百度对AIGC、ChatGPT等技术已经开始积极布局了。无论是阿里还是百度,目前国内科技巨头的技术发展方向都是将ChatGPT相关技术融入自己已有的主要产业模块,以此谋求深度的商业增长。互联网企业360也在ChatGPT相关技术上有自己的产业布局,目前在文本生成图像、类ChatGPT等AIGC技术中都有持续性的成本投入。2023年3月,在360主办的论坛上,公司创始人周鸿祎演示了一款由360自主研发的类ChatGPT大型语言模型。该模型在一定程度上已具备对中文较好的语义理解能力,展示了360在这一方面的阶段性成果。阿里巴巴目前也发布了其大型语言模型“通义千问”。据悉,阿里巴巴今后的所有产品都将接入“通义千问”。而“通义千问”也展现出了更大的市场野心,相关负责人表示,阿里云将提供完备的算力和大模型基础设施,并帮助包括创业公司在内的所有企业和机构打造自己的专属大模型,让它们更好地实现创新,也让中国整体的AI能力有全方位的提升。从国内科技巨头在AIGC技术上你追我赶的态势来看,人工智能相关的产业发展呈现出相当光明的发展前景。说完了国内科技巨头的发展态势,我们再来看看国外的科技巨头在ChatGPT领域的发展情况。让我们把目光投向美国,美国的微软是与ChatGPT及其母公司OpenAI关系最密切的科技巨头之一。在2023年2月,微软就推出了最新版本的搜索引擎Bing(必应)和Edge浏览器,二者均由ChatGPT进行支持。更新的Bing搜索将会以类似ChatGPT的方法,来对已有大量上下文的问题进行回答。而正是在同一个月,微软还宣布了企业中的所有产品会全面与ChatGPT进行整合,这些产品包括Azure云服务、Teams聊天程序、Bing搜索引擎,以及囊括Word、PPT、Excel的“Office全家桶”等。目前,GPT-4已被内置于新版Bing搜索引擎中,这也代表着微软开始与谷歌这个全球搜索引擎的巨头进行对抗。其实在这之前,微软就和ChatGPT的母公司OpenAI深度扩展了合作关系,计划扩大投资只是一个基础,OpenAI还会使用微软的Azure云计算服务来更快地推动人工智能的突破。面对微软强势的竞争,谷歌也不甘示弱,推出了AI对话系统Bard。与微软采取的方式类似,谷歌也会把Bard对话系统与谷歌的搜索引擎相结合。谷歌的云计算部门GoogleCloud开始与OpenAI打擂台,宣布与OpenAI的竞争对手Anthropic推进全新的合作关系,而Anthropic也已经把谷歌云当作自己的首选云提供商。在2023年1月,Anthropic也推出了一款全新的AI聊天机器人产品Claude,这款产品基于其自研架构,被认为是ChatGPT一个强有力的竞争对手。老牌巨头英伟达与ChatGPT的关系也不浅,ChatGPT在进行模型训练时,至少导入了10000颗英伟达高端GPU。亚马逊、Meta等科技巨头的高管,也都表示想对AIGC、ChatGPT相关技术或产业进行积极布局。在AIGC领域,各个企业的市场竞争才刚刚开始。ChatGPT的应用从宏观角度看完了与ChatGPT有关的产业发展,下面我们来谈谈与日常生活切实相关的话题,那就是ChatGPT究竟有什么用,或者说它能给我们带来什么。从全网的报道中我们都能了解到,ChatGPT能在一定程度上帮人们承担部分工作,减轻人们的负担,具备十分广泛的应用场景,下面我们举例说明。快速阅读和总结:会议马上要开始了,你有一份文件还没看,阅读完所有内容需要很久,但是你的时间非常紧张,这时候你可以将文件复制并粘贴到ChatGPT的聊天框中,并要求它为你总结文件中最重要的内容(图1-14)。这项工作ChatGPT已经驾轻就熟了,你有机会就可以尝试一下。客户服务和支持:ChatGPT能够以即时聊天或电子邮件的方式与客户进行交互,来解决客户的问题和疑虑,并同时提供支持和指导(图1-15)。面对ChatGPT时,你只需给它一个非常简单的提示,比如“写一封给客户的问候邮件”,ChatGPT就会给出它生成的例子。你对输出的结果不满意也不要紧,只需要略微改动一下提示再来一遍,就可以得到完全不一样的内容,ChatGPT几乎不会给你两遍相同的内容。交互问答:ChatGPT能够作为一种在线学习平台,在交互中回答问题,并提供相应的帮助。比如你花费一个周末的时间学习了古罗马历史,现在你想对自己的知识储备进行测试。ChatGPT可以轻而易举地给你提供5个关于历史的问题(图1-16),还能对你已经写下的试题答案进行纠正。图1-14ChatGPT在快速阅读和总结方面的应用示例图1-15ChatGPT在客户服务和支持方面的应用示例图1-16ChatGPT在交互问答方面的应用示例医疗保健:ChatGPT能够对患者关于疾病和治疗的问题进行回答,还能以此为基础提供一些康复和营养建议。比如你家的小朋友突然胃口不好,你也不知道为什么,这时候就可以问问ChatGPT,它有强大的整合能力,会把孩子胃口不好的原因条分缕析地全部列出来(图1-17),你还可以问它该怎么办,让它充当你的“私人健康调理师”。图1-17ChatGPT在医疗保健方面的应用示例进行代码审查:你是否曾经有过这样的体验,花费了整整一天的时间写代码,但现在实在是太累了,没有精力去复查自己敲下来的代码?这时候ChatGPT也能派上用场,你可以要求它去检查代码中的错误并修改,为自己省下大把精力(图1-18)。进行代码评论:不少程序员表示这个功能太让他们心动了!如果你给ChatGPT一段代码,并且让它做注释去解释每段代码的作用,它就会反馈给你一段注释的代码(图1-19)。这同样能够帮程序员们省不少事,让工作变得顺畅很多。Excel助手:在日常办公中让ChatGPT帮我们编写几个Excel公式也是没问题的。我们把表格处理的需求通过文字描述的方式输入给ChatGPT,ChatGPT便能生成一段Excel公式,经验证,这段公式是实际可用的(图1-20)。图1-18ChatGPT在代码审查方面的应用示例图1-19ChatGPT在代码评论方面的应用示例前面我们提到了一些ChatGPT的基础应用场景,其实它的技能远不止于此,甚至还能在营销、客服、风控等业务里发挥自己的功用。它能直接帮助跨境电商的卖家生成营销内容,在开展智能广告投放、提供即时客户服务、改善客户体验等方面降本增效。如果你是一个电商平台的店主,需要马上上架一款商品,但是写文案的员工请假了,这个时候你就可以利用ChatGPT来迅速生成一段营销文案。当然,前提是你需要告诉它你想要的风格和主题。已经有不少人尝试过拿它生成小红书文案了。类似ChatGPT的大型语言模型还可以提升金融业务流程的自动化水平,使得用户信用数据、历史借款记录、还款记录等数据分析以及关键信息要素提取、用户风险等级评估等工作环节都趋向于自动化,全面提升行业的风险识别能力。随着模型的升级更新,相信以后它的“业务范围”也会越来越广。图1-20ChatGPT在Excel助手方面的应用示例2023年3月,OpenAI宣布正式上线了ChatGPT插件系统。OpenAI表示,现在的语言模型虽然在各类任务中都能有所表现,但有的时候结果还不尽如人意。而通过加入更多数据进行训练,则可以不断提升模型效果。OpenAI将插件形象地比喻成“眼睛和耳朵”,新上线的插件系统能与开发人员定义的API进行交互,从而将ChatGPT与第三方应用程序对接,这样模型可以获取更多、更新或其他未被包含在训练数据内的信息。插件执行安全、受控的操作,提高了整个系统的实用性,ChatGPT所能适用执行的范围也变得更为广泛。总的来说,从相关应用场景来看,ChatGPT能够进行快速阅读和总结、客户服务和支持、代码审查、代码评论、医疗保健、营销内容生成等工作,但也不仅限于此。随着模型技术和算力技术的不断进步,ChatGPT也会进一步走向更高阶的迭代版本,为人类在更多的行业和领域内进行应用,并生成更丰富和美好的对话和内容。但是,ChatGPT在应用中也不可避免地表现出一些局限和弊端:ChatGPT的回答不够准确,存在胡诌或混淆等情况,用户需要自行判断;ChatGPT缺乏人类的判断力,不能辨明真假,无法理解和解决复杂问题,甚至存在伦理风险;ChatGPT模型需要不断进行训练和调整,需要提供大量的学习语料和算力支持,导致成本巨大;ChatGPT模型本身也存在不稳定、不透明、无法解释等情况;ChatGPT给社会带来了失业焦虑和恐慌,有人预测类似大模型的发展会造成大量失业。任何工具都有弊有利,ChatGPT也不例外。面对ChatGPT呈现出的双面性反馈,我们更要对这种工具进行合理化应用。推进人工智能的发展,仍然任重而道远。第二章AIGC的底层逻辑现在你应该了解我们广泛使用的生成式AI是何方神圣了。在本章,我们将更加深入,从底层技术逻辑,也就是“用什么去生成”的角度,继续剖析生成式AI,让它的“骨骼”和“脉络”展现出来。本章的内容包含生成式AI的基础模型,包括Transformer模型、GPT模型和Diffusion模型。你可能会觉得这些看起来有点难度,但读完了这一章,你就能理解这些模型的运行逻辑,如此才能更好地应用生成式AI为自己服务。生成式模型基础人工智能领域经过最近十多年的发展达到目前的高度,技术上最大的功臣无疑是深度学习。而深度学习的爆发式增长状态得益于海量的数据、图形处理器带来的强大算力以及模型的持续改进。2006年,计算机科学家、认知心理学家杰弗里·辛顿(GeoffreyHinton)首次提出了“深度信念网络”。与传统的训练方式不同,深度信念网络有一个“预训练”(pre-training)的过程,可以方便地让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)来对整个网络进行优化训练。这种分阶段的训练方法大幅度减少了训练深度学习模型的时间。毫无疑问,前文中我们提到的GPT、ChatGPT、Diffusion等生成式AI模型都属于深度学习模型。那么,什么是深度学习,它和机器学习又有什么关系?有哪些经典的深度学习模型对我们理解最新的生成式AI有帮助?本节将为你回答这些问题。深度学习的前世今生机器学习是人工智能的分支,它专门研究计算机如何模拟和实现人类的学习行为。在人工智能发展过程中,机器学习占据核心地位。通过各种模型,机器学习可以从海量的数据中习得规律,从而对新的数据做出智能识别或者预测,并且为决策提供支持。深度学习是机器学习的一种。如图2-1所示,人工智能是一个范围很大的概念,其中包括了机器学习。机器学习是人工智能提升性能的重要途径,而深度学习又是机器学习的重要组成部分。深度学习解决了许多复杂的识别、预测和生成难题,使机器学习向前迈进了一大步,推动了人工智能的蓬勃发展。那么深度学习又是如何发展起来的呢?图2-1人工智能、机器学习、深度学习关系示意图深度学习的概念最初起源于人工神经网络(artificialneuralnetworks)。科学家发现人的大脑中含有大约1000亿个神经元,大脑平时所进行的思考、记忆等工作,其实都是依靠神经元彼此连接而形成的神经网络来进行的。人工神经网络是一种模仿人类神经网络来进行信息处理的模型,它具有自主学习和自适应的能力。1943年,数学家皮茨(Pitts)和麦卡洛克(McCulloch)建立了第一个神经网