您是否注意到在过去一年左右的时间里,人们对人工智能 (AI)
的兴趣真的大增?深度学习激发了很多这种兴趣。深度学习彻底改变了我们使用手机的方式,为我们带来了新的应用程序,例如 Google Voice
和 Apple 的 Siri,它们基于使用深度学习训练的 AI 模型。

学习人类学习的方式

深度学习是一种基于神经网络的新机器学习方法,当我们向模型提供更多数据时,它会学习并变得更加准确。下图左侧显示了一个被广泛接受的深度学习原理:基于深度学习的 AI 模型比传统的机器学习方法具有更高的准确度,但需要更多的数据来训练才能达到该准确度。在右侧,我们展示了“深度学习”的 Google 趋势搜索结果,以展示过去几年人们如何为深度学习寻求更多信息。

deeplearning1-768x432.png

深度学习使 AI 模型能够以与人类学习方式非常相似的方式学习,即通过持续的经验和感知来学习。就像我们通过向婴儿展示大量图像和真实宠物来教婴儿如何识别狗和猫一样,我们可以通过向模型提供大量数据来教基于深度学习的 AI 模型如何识别图像和模式。

同样,如今的银行大多使用基于规则的系统进行欺诈检测,其中规则可能会指定一组触发欺诈警报的条件。相反,他们可以利用过去几年的信用卡使用情况来训练深度学习模型,该模型可以学习您提供的更多数据。事实上,即使您将 AI 模型部署到生产环境中,它也可以从银行每天处理的数百万笔信用卡交易中不断学习。这种方法的优势在于,人工智能模型会根据经验自动学习可能存在欺诈的新情况,而不是数据科学家为每种情况编写新规则。

深度学习在每个行业都有数十种用途,从零售分析到无人机视频分析再到医学成像分析,以帮助临床医生进行诊断。企业现在可以使用这些先进的机器学习方法从他们过去几年在数据湖中收集的数据中提取洞察力。但要使用这些人工智能方法,企业需要处理大量数据,而这种方法需要能够胜任任务的 IT 基础设施。

结合合适的硬件和软件进行深度学习

满足深度学习的性能需求需要什么?首先,我们认为没有加速器就无法做到。例如,我们的 IBM Power System AC922 服务器配备了四个专门用于此目的的 NVIDIA Tesla V100 GPU 加速器。我们与 NVIDIA 合作,在我们的处理器中嵌入了高速公路互连,将服务器 CPU 和 GPU 连接在一起,以处理深度学习中涉及的所有数据移动。这条名为 NVIDIA NVLink 的高速公路传输数据的速度比经过测试的 x86 平台[1]的 CUDA 主机设备带宽快 5.6 倍。

我们在深度学习背后的许多“魔力”也来自我们名为PowerAI的软件框架,该框架专为部署在 IBM Power Systems 上而设计。PowerAI 是一些最流行的开源机器学习和深度学习框架的企业软件发行版,这些框架已经过策划、测试和打包,以便于部署。我们为 Power Systems 硬件调整这些开源框架,以提供针对这种深度学习优化的性能和速度部署。PowerAI 还通过帮助数据科学家准备数据和更好地管理深度学习过程,使使用深度学习变得更容易。

突破 IT 基础架构墙

我们发现,大多数流行的开源深度学习软件框架在服务器内的 GPU 加速器上都可以很好地扩展,但它们在数据中心的多台服务器上的扩展性很差。因此,深度学习的训练过程可能需要数周才能运行。由于训练 AI 模型是一个迭代过程,因此数据科学家会浪费宝贵的时间等待实验运行。在 IBM,我们构建了一个名为分布式深度学习 (DDL) 库的创新软件库,它可以利用数百台服务器。

与经过测试的 x86 系统相比,采用 NVIDIA Tesla V100 的 IBM POWER9 将 AI 模型训练减少了 3.7 倍[2]。这是关键,因为人工智能应用培训要求极高,需要优化的基础设施来帮助各种规模的组织在人工智能时代取得成功。

通过这些硬件和软件优化,我们实现了对现代 AI 方法(例如深度学习)的大众化访问,以使各种组织能够开始使用 AI。联系我们以开始使用,了解有关深度学习和 IBM PowerAI的更多信息,并申请免费试用。

[1]结果基于运行 CUDA H2D 带宽测试的 IBM 内部测量

硬件:电源AC922;32 核(2 x 16c 芯片),POWER9 和 NVLink 2.0;2.25 GHz,1024 GB 内存,4xTesla V100 GPU;Ubuntu 16.04。用于高性能计算的 S822LC;20 核(2 x 10c 芯片),POWER8 和 NVLink;2.86 GHz,512 GB 内存,Tesla P100 GPU

竞争硬件:2x Xeon E5-2640 v4;20 核(2 x 10c 芯片)/40 线程;英特尔至强 E5-2640 v4;2.4GHz;1024 GB 内存,4xTesla V100 GPU,Ubuntu 16.04

[2]结果基于 IBM 内部测量,在 Enlarged Imagenet 数据集 (2560×2560) 上运行 1000 次 Enlarged GoogleNet 模型迭代。

硬件:电源AC922;40 核(2 x 20c 芯片),POWER9 和 NVLink 2.0;2.25 GHz,1024 GB 内存,4xTesla V100 GPU Pegas 1.0。竞争堆栈:2x Xeon E5-2640 v4;20 核(2 x 10c 芯片)/40 线程;英特尔至强 E5-2640 v4;2.4GHz;1024 GB 内存,4xTesla V100 GPU,Ubuntu 16.04。

软件:带有 CUDA 9 / CuDNN7 的 Chainverv3 /LMS/Out of Core 带有补丁,可在 https://github.com/cupy/cupy/pull/694https://github.com/chainer/chainer/pull/3762 找到

Tags: none

我有个想法