zsx

zsx

先作为主站备份 源站:https://my.toho.red

A卡深度学習サーバーのトラブルシューティングと問題解決のメモ

私は進歩心のない学生ですが、隣の人工知能専攻の冬休みにオーディトできるオンライン講座があると聞いたとき、すぐに申し込んで申請を通過しました。しかし、この講座にはデバイスが必要でした。私の絵画AIが高解像度でクラッシュするゴミのようなコンピューターを思い出し、家族のサポートを得た後、サーバーの構築を開始しました。

最初の構成は次のようになりました:

  • CPU:D1581
  • グラフィックスカード:Tesla P40
  • メモリ:32G DDR4

しかし、構成が確定してから数日後、おそらく家族が私の進歩心に感動したのか、サーバーの構成を全面的にアップグレードすることになりました:

  • CPU:13700KF
  • グラフィックスカード:3070
  • メモリ:32G DDR5

しかし、構成のアップグレードに伴う興奮が半日も経たないうちに、家族は構成を「少し」ダウングレードする可能性があると言いました。私はそれに対して感情的に安定しているとは言えますが、実際の構成を知った後、私の感情はすぐに不安定になりました:CPU は少しダウングレードされ、13600KF になりました。大きなコアが 4 つ減りましたが、価格はかなり下がり、コストパフォーマンスと言えるでしょう。グラフィックスカードについては、AMD の MI50 計算カードに変更されました。

深層学習については研究していませんが、私は AMD の神秘的な互換性の悪評を既に耳にしていましたので、迷いが生じました。しかし、少し調べてみると、AMD は数年前に ROCm 技術をリリースして CUDA に対抗していることがわかりました。説明にある「pytorch と tensorflow のサポート」という文言を見て、私は興味を持ち始め、A カードに変更することに同意しました。AMD の悪評を知った今、これは私がした中で最も後悔している決定だと気付きました。

準備は十分であり、余計なことは言わずに、以下に完全なセットアッププロセスを示します:

ドライバーのインストール中、私は最初は気にしていませんでした:何が難しいのでしょうか?しかし、インストールプロセス中に、私は約 3 つのシステムを切り替えました:

  1. Ubuntu 22.10
  2. GUI 付きの Ubuntu 22.04
  3. Windows10 LTSC 2019
  4. Ubuntu 22.04

セットアップの過程で、私は多くのトラブルに巻き込まれ、多くの経験を積みました。以下に時間順にまとめます:

  1. システムは最大で Ubuntu 22.04 のみをサポートしています。なぜこれが重要なのかというと、AMD が提供する ROCm のインストールプログラムは古くて古いライブラリに依存しており、高いバージョンの apt ソースにはこのような依存ライブラリが含まれていないため、インストールできないというエラーが発生するからです。

  2. amdgpu-install を使用してインストールする際には、--no-dkms パラメータを付ける必要があります。デフォルトの dkms モードでは、ドライバがカーネルにインストールされますが、4.x バージョンの古いカーネルしかサポートされていないため、新しいカーネルでのインストール時には dkms がインストールできないという問題が発生します。

  3. Windows を使用しないでください。なぜなら、ROCm は Windows をサポートしていないため、このカードをゲームやレンダリング、編集にしか使用できないからです。

これらのトラブルに遭遇したときは、少なくとも数日間研究し、成功するまで試行錯誤しました。AMD が深層学習の面で N に勝てない理由があると言えます。

ここまで来たら、私はついにインストールに成功しました。Google と AMD の公式サポートの助けを借りて、グラフィックスドライバをインストールし、ai-benchmark を正常に実行することができました。

以下はインストールに使用したチュートリアルのリンクです:

https://askubuntu.com/questions/1429376/how-can-i-install-amd-rocm-5-on-ubuntu-22-04
https://github.com/RadeonOpenCompute/ROCm/issues/1852#event-7730462672

以下は現在のシステムの概要です:

  • システム:Ubuntu server 22.04.1
  • カーネル:5.15
  • ROCm バージョン:5.1.1

これらのすべてをトラブルシューティングした後、振り返ってみると、私の努力は無駄ではなかったことに気付きました:このカードの ai-benchmark スコアは P100 と 3070 の間にあり、これらのカードの価格は現在のカードよりもはるかに高いです。さらに、16G のグラフィックスメモリを搭載しており、コストパフォーマンスの面でも明らかな利点があります。

AMD が関連するドライバーサポートを改善できれば、A カードは購入する価値があると思います。このようなコストパフォーマンスの巨大な利点は、私のような貧しい学生にとって非常に魅力的です。別の視点で言えば、AMD のおかげで、安い N カードと IU を使うことができました(逃)。

2022.11.15

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。