レガシーシステム管理の問題点はデータセンターへの移設で解決!ポイントを詳しく解説

課題解決のためのノウハウ
こんにちは、STNetの佐藤 竜太郎です。データセンターPowerico(パワリコ)の設備運用を担当しています。
本コラムでは、今注目されているGPUサーバーについてその概要やメリット、また、データセンター内において高密度サーバーを安定的に運用していくうえで、気を付けなければいけない重要なポイントを解説します。
重要なポイントは「電源容量」「空調」「省エネ」です。GPUサーバーは、これらの要件を満たしたデータセンターで運用されることが必要となります。データセンターの受け入れ先を検討している場合は、ぜひご参考になさってください。
GPUとは、「Graphics Processing Unit」の略で、画像処理装置と訳されます。その名のとおり、画像を描画する処理を行うもので、並列処理に優れた仕組みを持っています。GPUは通常のPCにも1つ搭載されていますが、これを複数搭載し、大量のデータを高速に処理できる機器がGPUサーバーです。特に、近年ではAI(人工知能)やVR(バーチャルリアリティ)の需要増に伴って、大規模なデータの高速処理が求められる機会が増えています。
GPUサーバーを使うメリットはさまざまにありますが、何と言ってもリソースを気にせずに大規模なデータ処理を行えることでしょう。
先にも述べたようなAIの分野では、ディープラーニングや機械学習のために、従来とは比べ物にならないほどの大規模なリソースが必要になることがあります。
ここに通常のPCを使用していてはCPUに大きな負荷がかかることが懸念され、場合によってはプログラムの実行すら困難になることがあります。こうしたケースでも、大規模な処理をGPUサーバーに任せることで処理を高速化すれば、大量のデータを扱うプログラムでも自社の既存機器スペックに依存せず進められるでしょう。
GPUを複数搭載して高速な並列処理を可能にするGPUサーバーには、「高密度サーバー」が使われます。高密度サーバーとは、サーバーに必要なハードウェア・機能を1Uサーバーのような小型の筐体に集積したサーバーのことです。先にも述べたAI分野の隆盛により、GPUサーバーが求められる機会は増えていますが、データセンターに大きなサーバーを都度設置していては、コスト高になります。そのため、一般的なGPUサーバーは、高密度サーバーとして設置面積や消費電力を抑えるように設計されています。
GPUサーバーとして高密度サーバーを活用することで、高度な計算を高速に実行できます。ただし、それに伴いラック当たりの電力密度が高くなり、その結果として発生する高い発熱量に対応する設備が必要になります。
一般的な企業内の情報システムでは、CPUの使用率は30%程度といわれています。一方、ディープラーニングや機械学習などの用途では、常にCPU使用率が100%に近い高負荷状態で使用されることが多いため、高い発熱量により電子機器の故障原因となってきます。
このように高い発熱量を持つ高密度サーバーをデータセンターで運用する際の注意点を、「電源容量」「空調」「省エネ」の3点から説明します。
データセンターについて詳しくは、「データセンターとは?5つのメリットと失敗しない選び方を徹底解説」をご覧ください。
まず「電源容量」の観点からです。
高密度サーバーの消費電力は大きいため、機器の諸元をしっかり把握し、必要な電源を用意する必要があります。1ラックに供給できる電源容量はデータセンターによって変わるため、高密度サーバーの要求する電源容量を満たすデータセンターの選定が必要です。
STNetのデータセンターであるPowerico(パワリコ)では、1ラックに機器定格21kVAまで供給可能なため、高密度サーバーにも十分対応できる電源容量を備えています。
高密度サーバーを運用するうえで、「空調」は電気と同じくらい重要であるといえます。高密度サーバーの排熱とその風量は通常のサーバーよりも大きいので、空気の流れを考慮した配置場所の検討が必要です。適切な場所へ配置しなかった場合、高密度サーバーが出す高温の排気がラック内で再循環したり、ほかのラックが吸い込んでしまったり、適切に冷却できなくなったりする可能性があります。適切に冷却できなければ、高温に弱い電子部品の寿命が極端に短くなり、サーバー故障につながることも想定されます。
しかし、空気の流れは目に見えないため、高密度サーバーの適切な配置場所を検討することは非常に難しいものです。温度計をラック内に置いてどこに熱だまりがあるか調査をするのは、手間も時間も非常にかかります。
データセンターでは、空調制御が工夫されています。当然、データセンターなので複数台の空調機があり、どのサーバー室も均一に冷やすようにオペレーションを行いますが、空調機によって設定温度や風量を変えています。それは、空調機に対応するサーバー室の環境(サーバーの負荷状況やケーブルラックなどの障害物の配置)がそれぞれ異なるので、同じように冷気を送っても冷え方に違いが出るためです。どうしても冷えないポイントが出たときは、現地で風速計を用いてサーバーラックの冷気吸込量と空調機からの冷気供給量を比較し、充分な冷気が供給されるよう空調機の設定を微調整して個別に対応を行います。空気の流れは目に見えないからこそ、物理的に区切って空気の流れをコントロールすることが設備の安定運用に不可欠なのです。
STNetのデータセンターPowericoでは、冷気を供給しているコールドアイルとサーバーが排熱をするホットアイルを物理的に分離する「アイル・コンテインメントシステム」を採用しています。もちろん、サーバーを設置する際に排気側をホットアイル側に設置する必要がありますが、この分離をきちんと行っているため、高密度サーバーの排気が給気側に回り込むことがなく、効率的に高密度サーバーの冷却を行うことができます。
また、空調設備についても冗長性が確保されており、空調機の故障がサーバーの稼働に影響を与える可能性がとても低いです。電源に問題がなくても、空調機が故障してサーバーの稼働ができないなんて悲しいですよね。
最後に「省エネ」の観点です。
昨今、環境問題が取り沙汰され、企業にも省エネが求められる時代となりました。加えて電気料金も高騰しており、高密度サーバーを効率の悪いデータセンターで運用すると、コスト面でのデメリットも大きくなってしまいます。
高密度サーバーが使用する電力量はどのデータセンターでも変わりませんが、それを冷却するための空調コストはデータセンター間で大きく差が出るでしょう。
STNetのデータセンターPowericoでは、寒冷期に外気を取り込み、高密度サーバーの冷却ができる仕組みがあります。外気冷房を使用することで、冷房に必要な電力を節約できることがメリットです。
高密度サーバーの運用では、電源設備、空調設備の信頼性が重要です。さらに省エネも実現できればよいといえるでしょう。
なお、設備の信頼性は設備のスペックだけではなく、それを安定的に運用できる人がいてはじめて成り立ちます。
STNetでは、お客さまのサーバーファーストで、データセンターの運用に鋭意取り組んでいますので、高密度サーバーの運用も安心してお任せいただければと思います。
株式会社STNet データセンターサービス部
データセンター設備課
佐藤 竜太郎
2021年よりデータセンターPowerico(パワリコ)の設備運用業務に従事。
データセンター空調設備の運用管理が主な担当。空調効率改善のために
空調関連新製品の検証なども積極的に行う。サーバーエリアの温度に対しては、
冷えが弱いポイントがあれば、現地で温度、気流の調査を行い、まず現状把握。
原因を推測して、自分たちでできる対策を考え、試してまた現状確認。
これを繰り返してお客さまのサーバーの適正温度維持のために日々改善に取り組む。
※このプロフィールは執筆時点のものです。