超大规模AI需要大模型、大数据和大计算能力的三重支持

日期：2022-10-20 （来源：互联网）

据报道，AI框架是一种集深度学习核心和推理框架、基础模型库、端到端开发套件、丰富工具组件于一体的底层开发工具。

有了AI框架，工程师在工作中调试算法，可以更快更高效。一般来说，AI框架相当于是AI时代的操作系统，就像PC时代Windows，移动互联网时代iOS和安卓。

AI框架发展的现状和趋势

AI自二零一零年诞生以来，框架的历史并不长。Theano到现在才十二年。而二零一七年以后，早期Theano，Caffe，Torch等待框架逐渐消失，二零一六年左右出现TensorFlow（谷歌），PyTorch（Facebook），飞桨(百度)逐渐占据市场。

从目前的市场份额来看，行业是TensorFlow以学术界为主PyTorch为主。与TensorFlow过于注重工业，PyTorch不同的专注于学术界，飞桨的特点是工业界双手掌握。通过动态图自动分析和编译静态图的技术，它不仅考虑了学术界的灵活性，而且实现了行业希望的高效性。

过去几年，AI框架形成了相对完整的技术体系，目前是主流AI框架的核心技术演变成基础层、组件层和生态层三个层次，其中基础层实现AI框架的基本核心功能包括三个子层：编程开发、编译优化和硬件使能。

从技术生态系统的功能定位来看，AI框架向下调用底层硬件计算资源，向上支撑AI构建应用算法模型，为算法工程实现提供标准环境AI技术体系的关键核心。

AI框架技术BF959不断发展，经历了萌芽阶段、成长阶段、稳定阶段，目前已进入深化阶段。AI框架朝向超大规模AI，深化探索全场景支持、安全可信等技术特点。

AI框架面临挑战

然而，在这一探索过程中，面临着许多挑战。超大规模AI目前规模超大AI成为深度学习的新范式。OpenAI于2020年5月发布GPT-该模型包含一千五十亿参数，数据集达到45T，在多项NLP超越人类水平的任务。这个超大的模型参数和超大的数据集AI实现深度学习新突破的大模型范式。

看到这种新范式的潜力后，工业界和学术界纷纷入局。OpenAI后来，基于华为MindSpore框架发布盘古模型，智源发布悟道模型，阿里发布M6模型，百度发布文心模型等。超大规模AI正成为下一代人工智能的突破口，也是最具潜力的强人工智能技术。

超大规模AI它需要大模型、大数据和大计算能力的三重支持，AI框架提出了新的挑战，如存储参数、激活、梯度、优化器状态、鹏程等。.盘古模型的训练需要近4TB内存。计算墙，鹏程、以盘古2000亿参数的大模型为例，需要3.6EFLOPS计算能力支持要求大规模异构建设AI计算集群可以满足这种计算能力需求，计算能力平台应该满足智能调度，以提高计算能力资源的利用率。还有通信墙、优化墙、部署墙等。

在全场景支持方面，随着云服务器、边缘设备、终端设备等人工智能硬件计算设备的不断出现，以及各种人工智能计算库的快速发展，人工智能软硬件生态呈现出多元化的发展趋势。然而，主流框架培训的模型并不普遍，学术研究项目难以合作和扩展，导致了深度学习框架“碎片化”。

目前，行业没有统一的中间表示层标准，导致硬件制造商的解决方案存在一定差异，导致应用模型迁移不良，增加了应用部署的难度。因此，基于AI标准化交换框架训练模型将是未来的挑战。

然而，即使面临诸多挑战，该行业在过去两年中不断探索，并取得了一些突破。例如，华为于2020年推出了盛思MindSpore，全场景协调，可靠性有一定突破；旷视推出天元MegEngine，深入布局训练推理一体化。

总的来说，在人工智能系统中，AI框架位于上下腰部，下接芯片，上承应用，是推动的关键枢纽AI应用大规模着陆的关键力量。因此，对于企业来说，克服AI框架面临的挑战是不断探索新趋势、技术创新、技术改进、功能和生态。

电子百科

产品导航

超大规模AI需要大模型、大数据和大计算能力的三重支持

相关资讯

关键字标签

IC37:专业IC行业平台