英特尔展示一系列视觉认知与机器学习研究成果

日期：2017-6-1 （来源：互联网）

，近日最火的话题之一当属“人机围棋大战终极对决”，最终，世界排名第一的柯杰九段和 AlphaGo 的围棋终极人机大战以 0:3 完败。这一出乎意料却又在意料之中的结果，引发了社会对于人工智能（AI）越发强烈的讨论。放眼业界， AI 已成为当下技术公司发力的方向，国际软硬件大厂Google、Facebook、微软、英特尔、NVIDIA、AMD 等皆已展开 AI 布局。

作为过去50年领导整个世界计算进步的英特尔，如何应对 AI 带来的机遇和挑战一直备受外界关注。而就在这几日的台北电脑展（Computex 2017）期间，英特尔中国研究院认知计算实验室高级研究总监陈玉荣便以“人工智能和深度学习”为主题，为大家详细介绍了英特尔在视觉认知与机器学习方面的一系列研究成果。

英特尔中国研究院认知计算实验室高级研究总监陈玉荣

目前，视频内容在互联网中所占的比例越来越高，大量的互联网数据都是视频内容，预计到2019年，77%的互联网内容将由视频组成，视觉媒体公司的数量将会继续增加，视觉内容数量也会持续增加。而面对数量如此庞大的视觉内容，该如何识别并学习他们呢？

对此，英特尔中国研究院认知计算实验室高级研究总监陈玉荣认为，答案就在于视觉分析技术。视觉分析是处理并理解视频内容的过程，而这一技术发展的重点是在识别过程中如何确定视频内容中的对象并进行分类。而现在，视觉识别技术无处不在，且成本越来越低廉，这得益于视觉识别技术在深度学习方面的不断突破。

据陈玉荣介绍，英特尔中国研究院认知计算实验室致力于视觉认知和机器学习前沿领域的科技创新，开发视觉内容理解和视觉内容创建的领先技术，从而在英特尔平台上实现视觉数据的智能处理并提供全新的用户体验。

在视觉识别方面，英特尔中国研究院认知计算实验室主要有三个项目：第一个是人像分析和情感识别，这一技术有着广泛的应用前景，可以与任何智能设备配合使用，还可以与增强现实技术配合使用；第二个是基于视觉识别的深度学习，英特尔开发出了高效的 CNN 算法模型；第三个是视觉分析与多峰分析，在分析视频内容时，对视觉、说话方式、语言、甚至国籍进行识别，以便于机器更好地分析内容，这一技术让自动为视频内容添加说明成为可能，也为视觉问答技术的发展成为可能。

人像分析与情感识别

陈玉荣表示，在过去的几年内，英特尔中国研究院认知计算实验室利用更加家科学严谨的算法建立了一套人脸识别系统。其实，英特尔本身能够完成人脸识别、表情识别、建立人像档案等应用，而实验室试图完善该系统，使其具备情感识别功能。因为在人像识别中，情感识别的功能对于智能计算和智能系统的建立至关重要。

为此，英特尔中国研究院认知计算实验室发明了世界领先的 ILC 互动式人脸分析技术，它能够捕捉面部的肌肉活动。同时，基于这个技术，实验室团队还获得了“2015情感识别挑战大奖”，这一奖项主要是基于音频视频内容的情感识别。

此外，陈玉荣补充道，去年，英特尔中国研究院认知计算实验室还发明了一套基于深度学习的解决方案，这一技术使得设计中的各个元素在识别情感中彼此互补。得益于实验室团队过去四年的努力，在识别7种表情的任务中，该技术的准确率达到了53.8%。

基于视觉认知的机器学习

在视觉认知中，视觉理解只是一个最基础的技术，而机器学习、视觉分析和多模态情感识别才是更具挑战性的任务。

针对机器学习，据陈玉荣介绍，英特尔中国研究院认知计算实验室提出了一个基于目标检测的方案。该方案融合了各种高效的方法，灵活地应用低端的边角、中部的主体和高端的芯片，在漂亮的二维空间里呈现出动态的图像，从而能够直接扫描和处理目标图像。

据悉，该方案可用于生成阅读指南和目标检测。同时，该方案拥有两个优势，首先，它拥有最先进的阅读指南存储功能；其次，检测工作能够更有效利用空间，也花费更短的检测时间。该方案颠覆了原本的连接金字塔，这一框架将基于地区和不基于地区的方法统一起来，弥补它们各自的劣势，突破性地解决了两个根本性的问题。

此外，陈玉荣表示，实验室也对 PASCAL VOC 和 MS COCO 进行了检测，并已在呈上的论文中提出最有效率的模型。VTCT 便是方案中的系列模型，其在 VOC 2007 的测试中获得 81.3% 的精确度，在VOC 2012 中获得 80.7% 精确度。开发出优化的方法不仅能带来更高的准确性，在方案的设计和模型的压缩上也提高了机器学习的效率。在脸部图像检测的过程中，实验室还设计了一个巧妙的方案：运用低比特压缩，凭借低精度重量和活动，在深度神经网络(DNN)上获得无损图像。因此，该方案加快了在硬件和软件上高效深度机器学习推断的速度。

视觉分析和多模态情感识别

据陈玉荣介绍，在视频字幕和多模型分析方面，英特尔中国研究院认知计算实验室正在从事一个更为创新而富有挑战性的任务，即密集视频字幕的研发，这一任务旨在设计出一个具有多重视觉信息和多样字幕状态的视频片段。

陈玉荣表示，实验室已研发出的密集视频字幕方案，采用了国外视频水平等级，并融合了多种设计方法。举个例子，该方案可以制造出信息丰富的视频：在前一秒一个男人正在喝酒，下一秒另一个男人在喝水，而再在下一秒，两个男人就开始攀谈了起来。实际上，可以在每个视频中制作5个视频片段，大大缩短与了解图像信息未知部分的距离。

最后，陈玉荣总结道，英特尔中国研究院认知计算实验室的研发结果推动了数据处理的成果，通过研发创新、在多个平台间处理数据，我们运行了最前沿的算法，进行了机器学习的研究，获得了多个范式的视频数据研发成果。

电子百科

产品导航

英特尔展示一系列视觉认知与机器学习研究成果

相关资讯

关键字标签

IC37:专业IC行业平台