6月16日,在人工智能框架生态峰会2023上,武汉人工智能研究院联合中国科学院自动化所正式发布“紫东太初”全模态大模型。

会听音乐能编曲 现场畅谈贝多芬

“紫东太初”全模态大模型是在千亿参数多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力,面向数字经济时代加速通用人工智能的实现。

会上首次对外实时展示了大模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等方面的全新功能,并邀请现场观众与大模型即时互动。“紫东太初”全模态认知大模型不仅可以透过《月光曲》畅谈贝多芬的故事,也可以在三维场景里实现精准定位,还能够通过图像与声音的结合完成场景分析,在现场获得了热烈反响。

从多模态到全模态的持续探索会听音乐能编曲!全模态大模型“紫东太初”2.0发布

自2019年起,中国科学院自动化研究所(以下简称“自动化所”)即坚持以“图-音-文”多模态技术为核心,确立多模态大模型布局,整合所内图像、文本、语音等研究方向的优势资源开展集团式攻关。

依托武汉人工智能计算中心的算力支持,2021年9月“紫东太初”1.0多模态大模型发布,向发展通用人工智能迈出了坚实的第一步。

“紫东太初”2.0在语音、图像和文本之外,加入了视频、传感信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入;突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术,能融合多个任务的认知增强多模态关联技术等,大模型多模态认知能力大幅提升。从1.0到2.0,“紫东太初”大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知世界,从而延伸出更加强大的通用能力。

打造全栈国产化通用人工智能底座

“紫东太初”2.0以自动化所自研算法为核心,以国产化基础软硬件平台昇腾AI为基础,依托武汉人工智能计算中心算力支持,着力打造全栈国产化通用人工智能底座。长期以来,强大的算力支撑是约束我国人工智能发展的瓶颈之一,以“紫东太初”大模型为领头雁开展的创新实践将有力推动国产基础软硬件与大模型技术的适配,协同构建我国通用人工智能自主可控发展生态。

全模态赋能,产业应用前景广阔

目前,“紫东太初”大模型已在手语教学、法律咨询、交通出行、医疗机器人、医学影像判读等数十个行业场景领域展现出广阔的落地潜力。

比如,“紫东太初”大模型仅用0.546秒就可对法律案件进行拆解、提取关键事件,在办公效率方面实现了案件分析速度的百倍速提升,有效解决律师整体资源匮乏、服务成本高的问题;在智慧交通领域,构建了面向公路网的孪生仿真、调度、养护、节能、服务等数智平台,道路通行率有效提升30%;在医疗领域,基于“紫东太初”打造的颅内微创手术机器人系统已完成国际首例深位颅内活检手术。

以“紫东太初”大模型为基础,武汉人工智能研究院将持续探索与类脑智能、博弈智能等技术路径的相互融合,最终实现可自主进化的通用人工智能。并将探索在更多领域发挥赋能价值,为促进湖北数字经济快速发展贡献力量。

(长江云新闻记者 李悦 通讯员 詹欣芮 责任编辑 解清)