欢迎访问ic37.com |
会员登录 免费注册
发布采购

超大规模AI需要大模型、大数据和大计算能力的三重支持

日期:2022-10-20 (来源:互联网)

据报道,AI框架是一种集深度学习核心和推理框架、基础模型库、端到端开发套件、丰富工具组件于一体的底层开发工具。

有了AI框架,工程师在工作中调试算法,可以更快更高效。一般来说,AI框架相当于是AI时代的操作系统,就像PC时代Windows,移动互联网时代iOS和安卓。

AI框架发展的现状和趋势

AI自二零一零年诞生以来,框架的历史并不长。Theano到现在才十二年。而二零一七年以后,早期Theano,Caffe,Torch等待框架逐渐消失,二零一六年左右出现TensorFlow(谷歌),PyTorch(Facebook),桨(百度)逐渐占据市场。

从目前的市场份额来看,行业是TensorFlow以学术界为主PyTorch为主。与TensorFlow过于注重工业,PyTorch不同的专注于学术界,飞桨的特点是工业界双手掌握。通过动态图自动分析和编译静态图的技术,它不仅考虑了学术界的灵活性,而且实现了行业希望的高效性。

过去几年,AI框架形成了相对完整的技术体系,目前是主流AI框架的核心技术演变成基础层、组件层和生态层三个层次,其中基础层实现AI框架的基本核心功能包括三个子层:编程开发、编译优化和硬件使能。

从技术生态系统的功能定位来看,AI框架向下调用底层硬件计算资源,向上支撑AI构建应用算法模型,为算法工程实现提供标准环境AI技术体系的关键核心。

AI框架技术BF959不断发展,经历了萌芽阶段、成长阶段、稳定阶段,目前已进入深化阶段。AI框架朝向超大规模AI,深化探索全场景支持、安全可信等技术特点。

AI框架面临挑战

然而,在这一探索过程中,面临着许多挑战。超大规模AI目前规模超大AI成为深度学习的新范式。OpenAI于2020年5月发布GPT-该模型包含一千五十亿参数,数据集达到45T,在多项NLP超越人类水平的任务。这个超大的模型参数和超大的数据集AI实现深度学习新突破的大模型范式。

看到这种新范式的潜力后,工业界和学术界纷纷入局。OpenAI后来,基于华为MindSpore框架发布盘古模型,智源发布悟道模型,阿里发布M6模型,百度发布文心模型等。超大规模AI正成为下一代人工智能的突破口,也是最具潜力的强人工智能技术。

超大规模AI它需要大模型、大数据和大计算能力的三重支持,AI框架提出了新的挑战,如存储参数、激活、梯度、优化器状态、鹏程等。.盘古模型的训练需要近4TB内存。计算墙,鹏程、以盘古2000亿参数的大模型为例,需要3.6EFLOPS计算能力支持要求大规模异构建设AI计算集群可以满足这种计算能力需求,计算能力平台应该满足智能调度,以提高计算能力资源的利用率。还有通信墙、优化墙、部署墙等。

在全场景支持方面,随着云服务器、边缘设备、终端设备等人工智能硬件计算设备的不断出现,以及各种人工智能计算库的快速发展,人工智能软硬件生态呈现出多元化的发展趋势。然而,主流框架培训的模型并不普遍,学术研究项目难以合作和扩展,导致了深度学习框架“碎片化”。

目前,行业没有统一的中间表示层标准,导致硬件制造商的解决方案存在一定差异,导致应用模型迁移不良,增加了应用部署的难度。因此,基于AI标准化交换框架训练模型将是未来的挑战。

然而,即使面临诸多挑战,该行业在过去两年中不断探索,并取得了一些突破。例如,华为于2020年推出了盛思MindSpore,全场景协调,可靠性有一定突破;旷视推出天元MegEngine,深入布局训练推理一体化。

总的来说,在人工智能系统中,AI框架位于上下腰部,下接芯片,上承应用,是推动的关键枢纽AI应用大规模着陆的关键力量。因此,对于企业来说,克服AI框架面临的挑战是不断探索新趋势、技术创新、技术改进、功能和生态。