英特尔分布式深度学习平台Nauta-安装、配置与管理指南
随着人工智能的发展,深度学习的价值不断增长,但实现它可能是一个复杂耗时的过程。英特尔(Intel)正寻求通过其在 Kubernetes 进行分布式深度学习的新开源平台来改变这一状况,该深度学习平台称为: 。
本指南包括 Nauta 安装、配置和管理,提供安装和配置Nauta的具体步骤。 同时包含了Nauta 要求、配置的选项,以及管理任务。
注意: 配置 Nauta 客户端的指南,参考 。
Nauta 是一个软件套件,提供了多用户、分布式计算环境用于运行深度学习的模型训练试验。 实验结果可以查看和监视,可以通过命令行界面 (CLI)、Web UI 或 TensorBoard*来查看。你可以使用已有的数据集,自己的数据或者在线下载数据,创建共有或私有目录来在团队间协作。
Nauta 运行于 Kubernetes* 和 Docker*,易于管理,具有较好的伸缩性。Nauta 使用定制模版来消除创建和运行单个/多个节点深度学习的复杂性,在标准的容器环境中运行,不需要复杂的系统和脚本。
硬件需求
Nauta is intended to run on a multi-server Kubernetes cluster. To run Nauta, you will need at least one Master node, and one or more Worker nodes. Nauta is a platform for performing Deep Learning training, and requires robust hardware specifications to run with optimal performance.
安装概览
安装Nauta 在 'bare metal' (for example, non-cloud) 服务器环境,需要:
- 执行下面的命令:
git clone --recursive https://github.com/IntelAI/nauta.git
cd nauta
- 编译基本package (makefile实现自动化的系列处理,有一些需要的最小的 packages集合)。
- 发布 Nauta's inventory 文件告诉master 和 worker nodes在哪里,以及如何访问。
- 配置Nauta's 配置文件,告诉关于 proxies, network quirks 和 filesystem 偏好等。
- 运行安装脚本。
该过程包括:
-
创建 Kubernetes cluster, 所有的需要的 Docker files用于运行 Tensorflow*, Jupyter*, Tensorboard, 和 Horovod*。
-
安装 Nauta server-side 应用到新的Kubernetes cluster,然后启动系统来运行。
完成上面的操作需要花一些时间,我们一步步来。
文档 Flow
该指南包含下面的主题:
更多: