开栏的话
我们正在进入一个技术加速迭代的时代。
浪潮之下,有平台的潮涨潮落,更有无数的平凡人,成为新赛道上的奔跑者。
他们的奔跑故事,本身也构成了这个时代的剪影。
今天起,让我们走进他们的世界,与100个互联网创作者、也是100个有趣的灵魂对话,一起去发现这个时代。
提要
·一个镜头可能就需300到400个英文单词进行描述
·AI工具还没有加入到日常工作流水线中去
·小心自己的作品被别人当做“语料”失去原创认定
川观新闻记者 唐泽文
“混沌未分天地乱 茫茫渺渺无人见……”这是西游记的开篇,也是一段由AI生成的西游记视频短片的开篇。
这两天,这段由中国博主通过AI工具生成的西游记系列AI概念动画火了。短片时长3分56秒,鸟语花香的花果山、庄严肃穆的灵台方寸山,在视频中被栩栩如生地还原出来。
不要小看这短短的3分56秒,这段视频的作者“AI疯人院”冯彬说,如果按照传统人工制作的方式,这段视频的制作周期至少在半年。而他制作这段视频,只花了一周的时间。
春节期间,OpenAI发布了新的人工智能文生视频大模型Sora,在全球引发热议。冯彬是四川人,现在在北京从事美术技术工作,主要负责给影视剧、游戏做CG动画,已有15年从业经历。
文生视频正在以及将要给相关行业带来什么影响?川观新闻记者对冯彬进行了专访。
冯彬在创作中。 受访者供图
记者:这段视频具体是怎么操作完成的,要用AI工具生成一个好的视频作品,关键在哪里?
冯彬:我主要使用的是Midjourney,其中的关键在文字描述。文生视频,顾名思义,通过文字生成视频。只有文字表述得专业、精细、生动、到位,才能够生成理想的视频。
具体是怎么描述的,抱歉不方便透露,可以透露的是,这段西游记视频中,只是一个镜头的描述,多的能达到300到400个英文单词。
每个人对镜头的理解都不尽相同,如何写出好的描述,让AI更好地理解你的意图,这是每一个使用文生视频工具的从业者都在深入研究的事儿。
不只是文生视频,整个AIGC领域创作都是如此。如果AI今后成为日常使用工具,谁能给出更精准到位的描述,谁就能把工具用得更好。
记者:这些描述都包括哪些方面?
冯彬:包括视频中要出现的主体、事件等。最重要的是对细节的描述。你想要什么样的光影、动势、画风?都需告知AI。作品最终效果好不好,关键就在这些细节。这个3分56秒的视频花了一个星期,我主要就在打磨这些细节的描述。
记者:你是从什么时候开始使用AI文生视频工具的?
冯彬:2022年就开始了,使用的是Midjourney,当时是V3版本。那时技术不太成熟,生成的产品主要自己看看,顺带了解这个领域。
但现在看来,1年多时间,这个领域的成长突飞猛进。这次做的西游记系列视频使用的V6版本,细节效果的提升大家也直观感受到了。
记者:西游记系列视频属于你个人创作的展示类作品,但你真正会在日常工作中使用AI工具吗?
冯彬:目前来看,我的日常工作仍主要为传统人工方案。AI工具正在变得越来越强大,但当下看,要把它加入到日常工作流水线中去,还需等它再成长一下。不仅是技术问题,AI工具要真正变成现象级应用,形成商业闭环,还有一些问题需要解决。
记者:都还有什么问题?
冯彬:举个我的亲身经历作为例子。此前我用AI生成了一个12生肖系列主题海报,都是自己在付费软件上,通过精心设计的文字描述,生成的具有自主创新风格的作品。
这项作品也火了,使得不少同行将我的作品作为“语料”,去训练自己的模型,生成许多类似作品发布到网上。
最终结果是,由于类似重复作品过多,平台判定我的作品为非原创。AI大模型要投入商用,怎么保障创作者的知识产权,是必须解决的问题。不然,无数创作者的热情会被浇灭。全球看,一些地区已出台相关法规,相信今后我们也将逐步完善。
记者:前不久OpenAI发布了新人工智能文生视频大模型Sora,你怎么看?
冯彬:震撼了。这打了其他所有已投入使用并收费的国外文生视频工具一个措手不及。你仔细看当下市面工具做出来的作品,包括我的西游记系列,里面的动作其实都是一些“静态动作”,幅度都很小。
这些静态动作仍局限在2D维度内。比如一辆车向你驶来,简单说,就是把这个车辆的2D图像放大来达到效果。
而Sora完全不一样,用OpenAI自己的理解来看,它更像是一个“世界模拟器”。3D物理世界在这里被精细地呈现出来。当然从官方放出的视频片段中也能找出一些瑕疵,但瑕不掩瑜,今后会对视频创作领域产生深远影响。
记者:具体会有哪些影响?能不能说得细一些?
冯彬:影视行业看,电影拍摄机位以后可能只需一个了——一个能把全场景内容拍摄到的机位。剩下的机位镜头切换、运镜,全用人工智能完成,这将大幅降低拍摄成本。
此外,一些广告片的制作可能也会变得更简单。把广告产品给到大模型,告知其具体呈现需求,直接生成。
这还只是视频领域。通用大模型现在的表现力主要集中在图、文、视频创作。但我始终认为这只是暂时的,它今后一定会在更多领域释放能量。
记者:为什么会有这种认为?
冯彬:互联网时代,文字、图片、视频是最直接的信息传播载体。各家企业训练大模型都从这3个载体入手,最早呈现出来的应用,自然集中在这3个领域。
但是,就如我们人,接收信息的方式也主要来自这3个载体,但人就只能做文字、图片、视频工作了?显然不是。人工智能也一样,拟人脑的学习方式,从文字、图片、视频中获得知识的途径,将让它们不断成长,使其今后能胜任更多工作。
记者:你是四川人,能不能聊一聊你对四川相关行业发展的看法。
冯彬:成都有许多游戏公司,也有很多美术外包公司,它们手里有大量原创美术作品资源。这些资源在大模型训练上非常有用。我知道一些大厂已开始训练自己的大模型,成都相关公司如能把握好机遇,说不定能在国产人工智能文生视频工具的生产上,成为一个独特的坐标。
【未经授权,严禁转载!联系电话028-86968276】