IT関連にとどまらず、多種多様なビジネスにおいて、データを集め、活用することが命題化した現在において、“データの集積地”であるデータセンターはインフラのひとつといえるでしょう。そしてインフラであるからには、いついかなる場合も、「当たり前のように動いている」ことが求められます。
さくらインターネット社が北海道 石狩に建設した「石狩データセンター」は、2011年の稼働開始以降、のレンタルサーバーやクラウド、大規模ハウジング(サービス)など、同社の多くのサービスの提供基盤であり、まさに「落としてはいけない」データセンターです。では、そんなデータセンターの安定を支える運用とは。
障害発生を未然に防ぎ、ときに大地震という災禍に遭遇しつつも、石狩データセンターを当たり前のように稼働させる運用の裏側を、石狩データセンター センター長の玉城智樹さんとハードウェアグループ 部長の小林潤さんに聞きました。
※この記事は、さくらインターネット株式会社によるSponsoredContentです。
- サーバー運用の選択肢はさまざま。運用をさくらにお願いする意味とは
- 徹底的に属人性をなくし、均質なオペレーションで安定を生み出す
- サーバー配置に細かくこだわる
- 「サーバーの新規構築を、いったんすべて止めよう」震災直後に下した決断
- 運用を守るために、まず人から守る
サーバー運用の選択肢はさまざま。運用をさくらにお願いする意味とは
──なんらかのサービス運用者がサーバーの運用方法を検討する際、オンプレミスで自社サーバーを持つ、ハウジングサービスを依頼する、クラウドサービスを使うなどさまざまな選択肢が考えられます。それぞれの手法の利点と欠点は何でしょうか?
玉城 オンプレミスの場合、サーバーを自由に調達できることや、運用形態を自分たちでデザインしやすいことなどが特徴です。その代わり、どうしても運用負荷は高くなってしまいます。電気や空調の設備を適切に整えようとするとコストも高くなりますし、運用にかかる人的コストも大きいです。
クラウドはその逆です。運用負荷が相対的に低く、アプリケーションレイヤーでさまざまな操作を完結できるといった特徴が挙げられます。社内にインフラエンジニアがいなくてもサーバーを持てるのは大きな利点です。その反面、プラットフォームの制約を受けやすくなるので、オンプレミスと比べるとハードウェアの自由度はどうしても低くなってしまいますね。
玉城智樹さん
さくらインターネット 技術本部 データセンター運用チーム リーダー 兼 石狩iDC センター長
──もうひとつ、サーバーは運用者が設計し、サーバーの設置環境と環境維持をデータセンターが提供する、いわゆるハウジングサービスも選択肢に挙げられます。
玉城 ハウジングサービスは、オンプレミスとクラウドの中間の特徴と表現できると思います。クラウドほどの気軽さはないですが、オンプレミスよりサーバー設置環境維持のコストや手間が少なく、かつサーバースペックの自由度もあります。その代わり、「ディスクが壊れた」「メモリが足りない」などサーバーを物理的にいじらなければいけない事態が発生した際、運用者の方がデータセンターまで足を運ぶ必要があり、即時対応しにくいのは難点ですね。どれが良い悪いではなく、適材適所で自分たちのユースケースに合ったものを選ぶといいと思います。
──ハウジングサービスを利用し、石狩データセンターにサーバーを配置する場合、他社のデータセンターと比べて優れている点はありますか?
小林 いくつかありますが、広大な土地を持つ郊外型データセンターなので、施設は常に拡張し続けています。ですから、急に大量のサーバー(サーバー =コンピューティングリソース)が必要になっても柔軟に対応できる点は大きいですね。大都市にあるデータセンターで膨大な台数のサーバーを扱いたいとしても、急に拡張対応できないケースが考えられます。
加えて、弊社の場合、石狩・大阪・東京の3ヶ所にデータセンターを持っており、各拠点をつないだトライアングル形式のネットワーク回線を構築しています。災害などでいずれかの経路がダウンしても迂回路を提供できます。かつ、MPLS(Multi Protocol Label Switching)という技術を採用しており、スムーズなルーティングの切り替えが行われるため、ネットワークの断絶のリスクを低減しています。
玉城 利用していただく企業さまごとに、サーバー設置環境のカスタマイズが利きやすいことも特徴です。石狩データセンターは耐震構造になっていますが、あるお客さまの「より堅牢性を高めたい」というリクエストに対応し、床を免震にしたゾーンを提供しています。また、お客さまのご要望に沿って空調の設定を変えているゾーンもあります。
徹底的に属人性をなくし、均質なオペレーションで安定を生み出す
──さて、データセンターにデータを預けるとなると、気になるのはデータセンターやサーバーの安定運用です。石狩データセンターでは、安定稼働を実現するために、どのような工夫をされているのでしょうか。
小林 我々が徹底してこだわっているのは、さまざまなオペレーションに関する運用フローやドキュメントの整備です。どんなメンバーであっても、均質的なオペレーションができるように工夫しているんです。
小林 潤さん
さくらインターネット 技術本部 ハードウェアグループ 部長
玉城 こうした属人性の排除は、石狩データセンターの業務において大切にしていることの1つですね。データセンターが1号棟、2号棟、3号棟と増設されるにつれサービスの種類は増えてきましたが、反面、僕らの業務は良い意味で画一的になってきています。「誰か特定のメンバーしかできない業務」をできる限りなくし、冗長化しています。
──運用の属人化を回避するために、ドキュメンテーションにおいてどのような工夫がされていますか?
玉城 決して派手なノウハウではないですが、作業の概要を丁寧に書くことを大切にしています。「作業を行う目的」や「作業を終えたときにどのような状態になるのか」といった情報を、ドキュメントの概要に必ず記載します。
かつ、作業における前提条件も併せて記載しています。例えば、「どのような知識やスキル、経験を持ったうえで作業を行うすべきか」「どういった権限を持った人が実施するべき作業か」などの情報です。前提を把握してから作業に入ることで、誰が担当しても行動指針がブレなくなります。
それから完了条件を示すことも重要ですね。何をもって完了とするかわからない作業手順ですと、作業者が戸惑ってしまったり、仮にオペレーションミスがあった場合に検知できなくなったりしてしまいます。
小林 運用は複雑にしようと思えばいくらでも複雑にできるんですよ。それをいかにシンプルに、誤解を排除していくかが、運用におけるキモです。
サーバー配置に細かくこだわる
──オペレーションのみならず、施設やサーバーなどハード面での工夫に関しても教えてください。?
玉城 データセンターの各棟を増設するごとに、収容効率を高めて運用コストを下げていることは工夫のひとつです。石狩データセンターは2011年に運用開始し、2号棟は2013年の12月からオープンしました。2号棟ではラックの幅を変え、1つのゾーンが格納できるラック数を増やしています。1号棟は1ゾーン100ラックでしたが、2号棟からは124ラックです。1部屋あたりに格納できるラックの台数が多ければ多いほど運用コストを下げられるので、2号棟ではかなりコストを最適化できました。
──サーバーの台数を増やすほど、排熱の難易度も上がっていくかと思います。排熱のしやすさをどのように担保しているのでしょうか?
玉城 工夫していることはいくつもありますが、一例を挙げるとサーバーの設置の仕方ですね。図を描いた方がいいかな。
玉城 例えば、ラック下部(底面)から冷たい空気が入ってラック上部(天面)に抜けていく構造だとします。石狩データセンターでは、天井の配管を通して熱を外に逃がしています。何も考えずにサーバーを積んでしまうと、左の図のように長いサーバーと短いサーバーがちぐはぐに設置されてしまい、熱気が上部のサーバにぶつかりパフォーマンスダウンや故障の原因になります。サーバーの配置が空気の流れを邪魔しないよう、右の図のように富士山のような形に積んでいかなければならないです。
ですが当然ながら、運用で使われる機器は都合の良い長さになっているわけではありません。さまざまな長さのものが入り混じり、必ずし山形に配置できるわけではありませんも。そこで、長短の差をカバーするために、ブランクパネルと呼ばれる目張りをし、サーバーとサーバーの間に熱が滞留しないように工夫しています。
▲ピンクのスポンジのような部分がブランクパネル。石狩データセンターでは、他にも排熱用ダクトなども手作りすることがあるという。
隙間を埋めるために使われるこの素材は、購入すると何万円もしますが、安価なものを使って社員が自作することでコストを大幅に抑えています。これも、なるべく手頃な料金でお客さまにサービスを提供するための工夫ですね。
小林 現地のメンバーが持つノウハウや、空気の動きをシミュレーションするソフトウェアなどを活用しながら、適切なサーバー設置位置を検討しています。
──1号棟と2号棟の運用実績をふまえて、3号棟を建てるにあたり工夫された点は?
玉城 整線に使う器具をより良いものにする、ブランクパネルの素材を変えるなど、細かなブラッシュアップは多いです。それから、1号棟と2号棟は扉をいくつも越えなければデータセンター内を行き来できないのですが、3号棟は直線的な通路が通っており、移動しやすくなっています。この点は大きな違いでしょう。
──通路を直線的なつくりにすることで、何が変わるのですか?
玉城 動線がシンプルになることで、フォークリフトなどが通りやすくなり、サーバーやラックなどを中に運びやすくなります。実運用に即した形で、データセンターの間取りも最適化しているんです。
「サーバーの新規構築を、いったんすべて止めよう」震災直後に下した決断
──日常的な運用の想定外の事態、2018年9月6日未明に北海道で発生した震災は、多くの施設に甚大な被害を与えました。石狩データセンターの専用サーバーの一部でも、停電に伴う電源切替時に動作異常が発生したとか。それでも、既存のサービスは提供を続けたそうですね。
玉城 震災のときは、ずいぶんと揺れましたね。地震を検知してから、社内にいた当番のメンバーたちは設備内に障害が発生していないかをすぐに確認していました。
発電機の一部がうまく動いていないとわかったため、設備担当のメンバーは復旧に回りました。そして、他の箇所は平常通りのオペレーションを維持できるように体制構築をしたのですが、システムは早期に復旧し、非常用電源設備による運用に切り替えられたんです。
被災して大変な状況だったにもかかわらず、メンバーたちはちゃんとシフト通りに出勤して、サービスを守ってくれました。僕はそれが何よりもありがたかったです。
▲左は電力会社から供給される電気を最初に受け止める設備。震災後、電力会社からの供給が喪失した際、この部屋が真っ暗になった、と玉城さんは振り返る。また、右はデータセンターが独自に備える非常用発電機。フル稼働すると、石狩データセンターだけでなく、周辺の家屋まで電力供給できるほどの発電量を確保しているという。
小林 さくらインターネットは東京や大阪、石狩など複数の拠点がありますが、震災当時はそれぞれの拠点で役割を分担してのオペレーションが行われたんですよ。拠点同士では、Slackやテレビ会議などを駆使して、活発にコミュニケーションをとり続けていました。
石狩の現地では、玉城を中心としてサーバー運用を平常に保つためのオペレーションを。一方、東京や大阪ではサービス運用方針について議論や救援物資の輸送などを行っていました。
──会社の総力をあげて、復旧に努めていたのですね。
玉城 さらに、僕の方から小林に対して「サーバーの新規構築を一時的にすべて止めたい」とリクエストしました。既存のサービスを提供し続けるだけでなく、新たなお客さまを迎える新規構築作業も平時は重要な仕事です。それを被災直後、一時中断させてくれ、と。つまり、新規のお客さまからのリクエストを受けつけない、ということです。当然の判断に聞こえるかもしれませんが、会社の売り上げに直結することなので大きな決断でした。この方針決定に関しては、小林が判断して動いてくれたんです。
小林 僕らの仕事は、当たり前のサービスを当たり前のように提供することです。新規構築を止めるべきか、ものすごく葛藤がありました。ですが、お客さまに事情を説明すると、みなさん快く受け入れてくださいましたね。
ありがたいことに9月8日には電力供給が再開されましたから、それに追随する形でサーバーの新規構築も再開しました。
運用を守るために、まず人から守る
──震災の最中には、どのような運用体制をとっていたのでしょうか?
玉城 当時、何かテクニカルで特別な運用をした、と言えればカッコいいのですが、特別な何かはありません。体制の維持に努めて、いつもどおりのパフォーマンスが出せるように注力しました。いつまで災害が続くかわからない状況下で100%のパワーで働き続けることはできませんから。突発的な保守にはしっかり対応するけれど、それ以外はしっかり休む。長期戦に備え、「当たり前のサービスを当たり前のように提供する」を実現できる体制を心がけたんです。
──データセンターの存在が社会的インフラに近しいものならばこそ、当たり前のように動いていることは重要です。「当たり前のサービスを当たり前のように提供する」を実現できる体制をつくるために、大事にされたことがあれば教えて下さい。
玉城 震災時、特に気を配ったことを挙げるならば、データセンターのスタッフの心のケアです。いつ停電が解消されるかわからなかったですし、スタッフのご家族も被災していますから、みんな気が気ではありませんでした。働いている間、家族を家に残しているのが不安でしょうがないんですよ。
その不安を解消するために、「社員のご家族にオフィスで生活してもらおう」と決めました。いま私たちがいるいるこのフロア、見ていただくとわかるように、非常に広いですしキッチンやシャワーなどの設備もあります。非常用電源設備があるので明かりもつくし調理もできます。自宅にいるよりもずっと快適だったんです。家族が安全な場所にいると思うと、落ち着いて仕事ができ、それが安定運用にもつながるだろう、と。
▲データセンター内のフリースペース。震災後、センタースタッフとそのご家族はこの空間に避難し寝泊まりした。
──大切な家族が危険な状態では、仕事にも身が入らないですよね。
玉城 震災を経験したことで、石狩データセンターの運用形態はアップデートされました。今後は、非常時には業務量を減らして社員の負荷を軽減するのはスタンダードな運用になると思います。備蓄品のラインナップも、だいぶ様変わりしました。布団は増えましたし、美味しく食べられる非常食がいくつもある。赤ちゃん用のミルクも備えています。万が一に備えて、会社で生活できるような設備を構築しておくことは重要だと感じました。
インフラ運用に携わる方には「乾パンだけで人は働けない」ということをぜひお伝えしておきたいです。災害時こそ、美味しいものを食べなきゃいけない。
──サービスをきちんと維持するためにも、しっかり食べてパフォーマンスを発揮する必要がありますからね。
小林 体力的にも精神的にもまいっているのに「食事は乾パンか……」となると、力も出ないですから。
玉城 ありがたいことに、家族がデータセンター内にいてくれたので、ご家族の方々がキッチンで美味しいものつくってくれたんですよ。人間って、美味しいものを食べると元気が出てくるんだなと心から感じました。美味しい食事があったから、僕たちは仕事を続けられ、データセンターの機能をお客さまに届けられ続けたのかな、と。
▲震災後、データセンター内の備蓄非常食は「乾パンからカップ麺にアップグレードした」と二人は笑う。小さな子どものための用品だけでなく、スマホ用の電源や充電ケーブルなども備蓄されている。
──安定運用を生み出すのは、運用を担う“人”であるということが伝わってきます。最後に、お二人が運用のために大事にされていことを聞かせてください。
玉城 物理サーバーを構築・運用する業務は、「サービスを止めたら終わり」の世界でごまかしがききません。だからこそ、業務やチームを改善し続けていかなければ、長期にわたって機能を持続させることはできないです。つまり、いま石狩データセンターが元気に動いていることが、僕たちのやってきた日々の積み重ねの成果なんだと考えています。
そして、改善し続けていくチームをつくるために、なによりも大事にしているのはメンバー同士のコミュニケーションです。オーダーをただ一方的に投げるんじゃなく「○○という方針なんだけど、どう思う?」という問いかけが一言あるだけで、チームの雰囲気は変わってきます。
小林 さくらインターネットは「伝わるまで話そう」というメッセージを掲げています。この状態を実現するには、話す側が真摯に伝えるという姿勢と、聞く側が理解できるよう、丁寧に耳を傾ける姿勢が必要です。双方の思いやりが、良い組織、良い運用をつくり出していきます。より良い組織へと日々成長していくことが、サーバー運用においても重要なのだと思います。
──ありがとうございました。
[SponsoredContent] 企画・制作:はてな
取材・構成:中薗 昴