Cosnomi

プログラミングをする医学生。物を作ること、自動化すること、今まで知らなかったことを知ることが好き。TypeScript書いたり、Pythonで機械学習したりなど。

Twitter / GitHub / GPG key / Fediverse / My Page

TOP >

AWSでディープラーニングの環境構築をした

Nov. 18, 2018機械学習 AWS

GPUを使えるクラウドとしては、AWS(Amazon), GCP(Google), Azure(Microsoft)などがあります。今回は、AWS上でのディープラーニング環境構築のポイントをご紹介します。

環境構築は Deep Learning AMIを用いる

AWSの用意しているDeep Learning AMIを使えば、AWSでディープラーニング環境を構築するのは非常に簡単です。AMI自体の利用料金は無料で、かかるのはAWSのインスタンス利用料金のみです。

このAMIにはTensorFlowやKerasなどが最初から入っており、GPUを利用するためのCUDAも設定されているため、実行したいスクリプトが既にあれば1分とかからずに学習を開始できます。TensorFlow以外にも、CaffeやTheanoなども使えます。

最初はシングル GPU で

P2、G3、P3はいずれもGPUの数が異なる複数のバージョンがあります。P2の場合、p2.xlargeではシングルGPU、p2.8xlargeでは8台のGPU、p2.16xlargeでは16台のGPUを利用可能です。料金は単純にGPUの台数分、n倍されて増えます。

私はKerasを使うことが多いのですが、マルチGPUを利用するときはweightsやmodelの保存で結構テクニックが必要です。また、GPU以外の箇所がボトルネックになっている場合はGPUを増やしたところで学習速度がそこまで改善せず、コスパが悪化する可能性もあります。以上のことから、実験段階のうちはシングルGPU(hoge.xlarge)が良いかと思います。

インスタンスの利用申請が必要

AWSでP2やP3インスタンスを利用するには利用申請が必要です。(多分G3もです)AWS登録直後にP2インスタンスなどをlaunchしようとすると、下の画像のようなエラーが表示されます。

デフォルトでこれらのインスタンスの台数制限は0になっており、これを増やすにはサポートに連絡する必要があります。簡単なフォームを埋めるだけです。目的には「ディープラーニングで使用するので、GPUが使えるインスタンスを利用したい」などと書けばいいと思います。人間が審査しているようで実際に利用を開始できるのは申請後3~4日程度です。

まだ他のインスタンス(p2.xlargeなど)の利用実績がないのに高額なインスタンス(p3.16xlargeなど)を申請すると断られます。

source activate を忘れない

インスタンスの利用申請が通り、SSHクライアントでインスタンスに接続できたとします。

Deep Learning AMIをAWSインスタンスで利用するには、source activate <環境名>コマンドを実行する必要があります。これを忘れると、tensorflowなどデフォルトでAMIに入っているライブラリが利用できません。また、pipなどでtensorflowを入れてしまうと、GPU付きのインスタンスを利用しているにもかかわらず、CPUのみで演算をしてしまい、非常にもったいないです。

<環境名>の一覧はこちらに記載されています。

私の場合は、TensorFlow(+Keras2) with Python3を使いたいので、 source activate tensorflow_p36 となります。これは、インスタンスを起動する度に必要です。