生成AI時代のネットワーク未来予想図とは
需要に供給がマッチしていないと言われる生成AI、大規模言語モデル(LLM)等の学習に用いられるGPUサーバー間をつなぐネットワーク。
たとえばGPUサーバーを用いた並列分散学習を行うネットワーク構成には広帯域に加えて低遅延かつパケットロスが非常に少ないことが条件となってきます。
また他にもネットワーク要件として、一般的イーサネットと比べ桁違いの高性能が求められるため、近年ではGPU専用のネットワークが求められるようになってきました。そうした状況に対応するための新時代ネットワークとは・・・今回はこの話題を取り上げて解説します。
高コスト体質
まず問題となっているのが、GPUサーバーの価格や入手の難しさ。
高性能かつ消費電力の低い製品ほどその傾向が強く、メーカーも限られた数しか存在しません。経営的観点からもGPUクラスター専用のネットワークを作り、AI等の利用向けに特化させ集中稼働させた方が競争力を高められると考えるのが一般的です。
高負荷となるAI処理
通常のAI利用では大容量データを複数のGPUで分散処理しており、処理の集積と離合が繰り返される仕様。そのためGPU間の通信の高速化にはOSを介さず、GPUメモリ間でデータを直接転送するRDMA(Remote Direct Memory Access)方式を用いるのがほとんど。そうした処理の場合、利用状況に応じて広帯域のトラフィックが一挙に出るため、通信性能が低いほど高コストになりがち。なぜなら通信中のGPUはアイドル状態となっているから。出来うる限り通信時間帯を減らせば電気料金も少なく、コスト減につながりやすいのです。
ボトルネックの解消には
たとえばパケットロス率をいかに低く維持させ、通信時間を短縮させるかなど高度な輻輳コントロールやロードバランシング能力が問われてきます。
一例として輻輳ではエンドツーエンドでコントロールできるDCQCN(Data Center Quantized Congestion Notification)であったり、詳細なネットワーク稼働状況をリアルタイム可視化できる仕組みが求められます。
そのためパケットロスをより少なくするには、ミリ・マイクロ秒で混雑状況を可視化できる必要があり、スイッチングハブ等の装置から情報を取得できるネットワークテレメトリ機能などの実装が急務となっているのです。
次世代Ultra Ethernetとは
近年のAI利用の急増に伴いEthernetをベースとした高性能通信規格の実現を図る動きが活発化していました。特にデータセンターにおけるトラフィックが急増したためバックエンドへの高速ネットワーク構築の重要性が叫ばれ始めたのです。そうしたなか注目されているのが『Ultra Ethernet』と呼ばれる次世代通信規格。AMDやCISCO、intel、Microsoft、Oracleなど巨大IT企業が運営メンバーとして名を連ね、増大するネットワーク需要に対する高性能な通信アーキテクチャへの転換を企画しているのです。
目的としてAI利用などに特化した機能性、パフォーマンス、エンドユーザーの使いやすさの追求、イーサネットからの変更を必要最小限に抑え、相互運用性を維持することを目指しています。また帯域幅・レイテンシ・スケールと言った性能面についても向上に寄与していくことを追加目標としてあげているのです。
これまで消費電力に占めるネットワーク通信は問題となっていませんでしたが、今後AI利用等で増え続ける膨大な電力を消費するGPUを稼働させる高負荷な状況は企業にとっても社会にとっても望ましいものではありません。そのため省電力化もまた大きなファクターの一つ、新世代チップを用いた様々な新技術の投入が予定されており、前世代の2倍とも言われる電力効率の実現が可能とされています。