「インターネット回線総量No.1」「オールフラッシュストレージ」「GPUでディープラーニング」──最近“攻め”のサービスを打ち出しているIDCフロンティアのインフラエンジニアの仕事ぶりについて、はてなシステムプラットフォーム部エンジニアの村松(id:halfrack)が根掘り葉掘り聞きました。クラウドの「楽しさ」から組織づくりまで、そして当事者も想定していなかった話題へ……ディープな領域に踏み込む対談となりました。記事の最後にはプレゼントのお知らせもあります。
座談会出席者は、(上写真、左より)株式会社IDCフロンティアの見崎徳仁さんと金井崇さん、はてなの村松雄介(id:halfrack)。構成はITジャーナリストの星暁雄です。
(※この記事は、IDCフロンティア提供によるPR記事です)
■ 回線容量の増強で変わったこと
──まず自己紹介をお願いします。
見崎 主にネットワークを見ていて、ネットワーク設計、クラウド、オブジェクトストレージと徐々に手を広げています。IDCフロンティアには2015年9月に、フルチャージ入社制度(中途採用の社員を対象に、入社日から1ヶ月間の有給休暇付与・試用期間満了後の祝い金100万円支給を行う制度)を利用して入社しました。
金井 入社して9年目になります。入って1年後からクラウド基盤を手掛けてきて、8年たってもクラウドをやっています。その上で動くソフトウェアも手掛けます。最近はGPUコンピューティングや新しいクラウド基盤をやっています。
村松 2011年にはてなに入社して、5年目です。入社した頃のはてなはインフラチームが2人程度と人数が少なく、上から下まで全部見てきました。好きな技術トピックはストレージとネットワーク、サーバーハードウェアです。ストレージが速くなるとすべて解決すると思っている人間です(笑)。
──最初にお聞きしたいこととして、IDCフロンティアでは国内データセンター事業者の中で「インターネット回線総量No.1」をうたっていますが、回線容量の増強に至った背景を教えてください。
見崎 徳仁(みさき のりひと)
株式会社IDCフロンティア
カスタマーサービス本部
プラットフォームエンジニアリング部
見崎 1年ほど前ですが、弊社に向けたDDoS攻撃が盛んで、お客様に迷惑を掛けてしまっていました。詰まることのないネットワークを提供するために、バックボーン拡充に乗り出し、1年で3倍以上に回線容量を増やしました。結果として回線が詰まることがほとんどなくなりました。それまでトラブルシューティングやお客様への説明に使っていた時間を、新しいことに使えるようになりました。
最近はDDoS攻撃が非常に多く、対策はもはや避けられない状態です。そこで、回線容量を増やしただけでなく、お客様向けのDDoS対策のサービスも提供しています。
村松 なるほど。IDCフロンティアの拠点って今は何ヶ所ぐらいですか?
見崎 北九州、白河、首都圏、大阪など全国に9拠点です。対外接続は首都圏と大阪がメインですが、クラウドの出口は北九州や白河にもトランジットを買って太い回線を用意しています。
村松 トランジットやピアリングの状況はどんな感じですか?
見崎 トランジットは4~5社というところです。ピアは、どちらかというとパブリックピアをメインにしていますので、接続先はいっぱいあります。JPIXとBBIXに向けて足を出しています。
村松 ピアリングは事業者が大きいほど有利ですが、回線容量を増やしたことでその点で変化はありましたか?
見崎 そうですね、ちょこちょこピアリングのリクエストが届いたりしますね。ピアは積極的に張っていきたいですね。
村松 規模が大きくなると、フリーピアの数が増えて、お金を出してネットワークを買う割合は減っていくものなのでしょうか。
見崎 そうなれば理想的です。トランジットの費用はばかになりません。ピアを増やしてそちらにトラフィックを流せるといいですね。
■ オールフラッシュストレージ導入でネットワーク全体を見直し、一気にサービスインへ
──オールフラッシュストレージ搭載が特徴のIaaS「 IDCFクラウド」を提供していますが、どんなチャレンジがあったのかを教えてください。
金井 崇(かない たかし)
株式会社IDCフロンティア
カスタマーサービス本部
プラットフォームエンジニアリング部
金井 2015年11月に、北九州データセンターの西日本リージョンで他社に先駆けてオールフラッシュのサービスを打ち出しました。それまでSanDisk ioMemoryを使ったハードウェア占有タイプのプラン(注:HighIO 5XL128プラン)があったのですが、それが好評だったため、普通に仮想マシンを使えばストレージが全部フラッシュになるサービスを出すことにしたんです。
採用したフラッシュストレージ製品には3年前(2013年)の発表時点から目を付けていました。ただし品質が私たちの条件を満たしていなかったので様子見をしていたんですけど、2015年7月になって品質面がクリアできたため、7月から11月までの期間を使って一気にサービスインまで持っていきました。
オールフラッシュになると速くなるのは当たり前ですが、やってみるとネットワーク全体の見直しを迫られました。
村松 ボトルネックの場所が移行したんですね。
金井 はい。サービスインまでにネットワーク周りを直しました。最初の段階で、すぐ増やせるようにネットワークを設計していたので、サービスリリースを遅らせずに済んで助かりました。
村松 フラッシュストレージについてはこの機会にぜひお聞きしたいと思って質問を用意してきたんですよ……(とスマートフォンを取り出す)
見崎・金井 (笑)
村松 フラッシュストレージですが、機種は何ですか?
金井 EMC XtremIOです。
村松 はてなでは仮想化基盤の部分からアプリケーションの部分まで自社で見ている関係で、DAS(Direct-Attached Storage)にこだわっています。DASにすることで安く、レイテンシを減らせます。SAN(Storage Area Network)はレイテンシを減らすのが難しく、高価で遅いという印象があるのですが、実際に使ってみてそのあたりはどうですか?
金井 “SANだから高い”という印象は正直ないですね。お客様に使ってもらうとなるとコストも品質も見られるし、使い勝手や、何かあってもデータが消えないことも大事です。他社とも戦っていかないといけないし。
村松 お客様に提供するサービスとなると、やはり話が違ってきますね。フラッシュストレージの導入には、ネットワークが安価になってきたことも関係するのでしょうか。
金井 使っているスイッチはFibre Channelではなく汎用品のEthernetスイッチです。クラウド周りのネットワークは2011年からフル10Gbpsにしています。
村松 時期が早いですね。
金井 ところがオールフラッシュにすると、10Gbpsでもサチってしまいました(汗)。
村松 雄介(むらまつ ゆうすけ)
株式会社はてな
サービス・システム開発本部
システムプラットフォーム部
村松 DASからの類推なんですけど、IOPS単価は以前より安くなっていますか?
金井 オールフラッシュストレージだとHDDストレージとは桁が違いますよね。
村松 稼働率は?
金井 稼働率もそれなりに上がっていきます。平均的に使ってくれるので。
村松 DASは稼働率があまり高くありません。稼働率が低いDASと稼働率が高いSANを比べると、また話は違ってきますね。
金井 1社だけで使う場合と違って、パブリッククラウドでたくさんのお客様に使っていただけると、使い方が統計的に平準化されます。
メーカーさんから「お客様の利用負荷の傾向はどうですか?」と聞かれるんですが「傾向はない」と答えます。オンプレミスの企業情報システムだと、例えば昼は基幹系、夜はバッチ処理と使い方が異なって傾向が出てきますが、クラウドでは全部混ざっているので昼も夜も常に高パフォーマンスでなければならない。
──クラウドをやるのは、そういうことなんですね。
金井 はい。絶対性能を求められます。だからこそ楽しい。
■ クラウドの「楽しさ」はサーバー台数の桁が増えてから
村松 いいですね、楽しそうですね! パブリッククラウドは規模が大きいから絶対楽しいですよね! 僕らの環境でも、1台のサーバーにゲストOSをたくさん載せるとある程度は平準化が効いてくるんですけど。もっと規模を大きくできたらと思うことはあります。
金井 すごく楽しいですよ! (サーバー数が)万を超えてくると楽しいですね。
村松 うちは2,000ぐらいなので! 「桁が変わると見える世界」ってありましたか?
金井 2つほどあります。物理サーバーの管理台数が合計で1,000台を超えてきたあたりで、これまでの管理手法が使えなくなりました。人手での管理は無理になりました。
もう1つは、IDCFクラウドのお客様が増えるペースが急増して、全然違う種類のボトルネックがいろいろなところに出てきました。成長曲線が指数関数的で、社内では一時期「成長痛」と言われていました。
村松 サーバー1,000台は身に覚えがある話です。1,000台を超えたあたりから急に管理が難しくなりますよね。うちでも経験していて、それでサーバー管理ツールをせっせと内製して、そのツールを煮詰めまくった結果、サーバー監視サービスである「Mackerel」をリリースしました(笑)。
見崎 おかげさまで!(笑)
▽ IDCFクラウド「Mackerel(マカレル)」に対応!サーバー監視を見える化
金井 使わせてもらってます!
村松 成長曲線の話はエキサイティングで景気がいい話ですよね。成長しているサービスにリソースを投入するのも無茶するのも楽しいと思います(笑)。
金井 文化祭の前日みたいな(笑)。
村松 そんな中での成功体験って、どんなものがありますか?
金井 2015年になる前ぐらいの時期に、SanDisk ioMemoryを搭載したサーバーを仮想化して提供するサービスを、日本で最初に出しました(注:前出のHighIO 5XL128プラン)。その後に大量の注文が入りまして、そのせいで、日本中のioMemoryの在庫を使い切りました(笑)。
村松 なんだか煽りを食らったような覚えがあるぞ……?
金井 わはは(笑)。2015年の1月から3月ごろにかけて、日本にioMemoryの在庫がない時期がありまして、そこにさらに追加で集めてきた。当時どれぐらい急いでいたかというと、パーツを直接データセンターに持ってきて、その場で検品をして、組み立てもして、そのまま組み上がったサーバーでラックの構築を始めるということをやりました。
村松 完全に文化祭ですね。
金井 いやー、激しかったですね。
村松 文化祭は24時間ぶっ続けではできないので(笑)、その後にニーズに対応する仕組みを作られたのだと思いますが、どうされたんでしょうか。
金井 メーカーさんも衝撃を受けて、協力体制を作ってくれました。サーバーもストレージもそうだと思うんですが、こういうことはメーカーさんの協力がないと無理です。いかに連携できるか、関係を強化するかが大事ですね。
村松 サーバーのキッティング(組み立て)からラッキング(ラック設置)までの体制の変化はありましたか?
金井 早くものが来れば早く作れるから、「直接部品単位で持ってくる」という対応にしました。バーンイン試験も通らないといけないので、キッティングの時間がもったいなかった。
村松 すごいですね。
金井 守っていても仕方ないし何も良いことがないので、攻めるしかない。経営層からは「世界で戦えるようになるために、まず日本一を目指しましょう」と言われています。私たち自身もそう思っています。
■ 部署の垣根を取り払った組織の特徴とは
──組織の特徴についてお聞きします。ネットワークとストレージとクラウドインフラ、複数のレイヤーの話が出ましたが、組織上もそれぞれ近いのでしょうか?
金井 全部同じ部でやっています。バックボーンネットワークをやっている見崎は、私の斜め前に座っていて、物理的にも近いです。サーバーもストレージもネットワークもソフトウェアも含めて連携しなければクラウドになりませんから、2016年4月から一緒の部になりました。
村松 はてなの場合はちょっと前まで30人くらいだった会社が今では100人くらいになりました。チームの人数も増えて都度体制を変えるなどしていて。そのあたりは大変ではないですか?
見崎 上司は大変だと思いますが(笑)、僕は結構好きにやらせてもらっています。
村松 お二人は、働いていて楽しいんですよね。
見崎・金井 はい!
村松 じゃあ成功している組織なんですね(笑)。お話を聞いていて楽しそうですもんね。
──そういう“良い組織”になった経緯は?
金井 ビジネスのフェーズによって、集まった方がいい場合と、離れた方がいい場合があって、それぞれを繰り返しています。今は集まって一緒に新しいことにチャレンジしていくフェーズですね。
見崎 組織は柔軟ですね。去年の段階で、いろいろなサービスでネットワーク上の課題が多くなって、結果としてネットワークのリーダーのところにがっと集まった、という経緯です。そこは強みだと思っています。
村松 データセンターネットワークとバックボーンネットワークが分かれている会社が多いと思うんですが、そこはどうですか?
見崎 一緒のチームです。それぞれ主に担当するものはあるんですけど。前職では細かくネットワークごとに組織が分かれていましたね。
村松 他社さんの話を聞くと、そこは魅力だなと思います。例えばデータセンターネットワークをやっている人が、バックボーンネットワークに興味があるのに触れる機会がないという話をよく聞きます。IDCフロンティアさんでは両方触れるチャンスがあるのはいいですね。
見崎 やりやすいと思います。両方触れる人は欲しいですね。同じ「ネットワーク」ですし(笑)。
村松 先日のJANOG主催のイベントでも話が出ましたが、バックボーンネットワークのスキルについては他に学べる場所がなくて「一子相伝」のような状態ですよね。まずどこかに弟子入りするところから、みたいな。
見崎 規模の問題なので、そういう側面はどうしてもありますね。そういう面もありつつ、別の分野にも触れられますし、ネットワークとしてはかなり幅広くできると思います。
村松 はてなもかなりフラットな組織だと自負していたのですが、同じにおいがあります。ひょっとして、一緒に働いている同僚や、他のチームの人たちが、善意に満ちあふれていていい人ばっかりだったりしませんか?
金井 私はそう思っています。働きやすいですね。
──「試行錯誤をする組織には心理的安全地帯が必要」という仕組みでしょうか。
金井 ああ、それはありますね。
村松 同僚が信頼できる人であるとか、会社を良くするためにみんなが協力的であることは大事ですよね。言葉にしにくいジャンルの話ではあるんですが、そういう組織であることが伝わってきます。
■ 「お客様に説明できるか?」を基準に考える
──インフラを提供する会社としてのきちんとした組織運営と「試行錯誤できる自由な組織」の両立のポイントってありますか?
金井 ここ数年で両立できるようになってきた、というのが本当のところです。「とりあえずやってしまおう」で、お客様に迷惑を掛けてしまうことがあってはいけない。スピード感を持ってやっていくんですが、「ここだけは守ろう」というところは守っています。たくさんのルールでがんじがらめにするんじゃなくて、「お客様に説明できるか」、そこを基準に動こうと。どういう経緯でそうなったのか、納得できるかどうか、考えるようになりました。
村松 「ここだけは守ろう」というものが自発的に出てくるのは、いいですよね。
金井 私自身も担当サービスで何回もお客様のところに説明に行ったこともありました。
村松 お客様と結構近いんですね。
金井 はい。直接訪問や提案をすることもありますね。たまに「クラウドの中の人がなぜ出てくるの?」と言われることがあります。
──お客様とのやりとりで、どんなことがありましたか?
金井 あるお客様で、ネットワークで時々パケットが落ちる不具合がありました。結論はお客様が持っていたネットワーク機器の不具合だったのですが、その切り分けのために2ヶ月ほど張り付いて、関係する3~4部署で連携して、なかなか再現しないので切り分け範囲を縮めていって、最終的に「ここで落ちている」というところを突き止めました。お客様への説明責任を果たせたということはもちろん良かったのですが、お客様と向き合うためという基準でいろいろな部署が一緒に動いてくれたことは、その後の体制づくりの上で非常に大きかったと思っています。
見崎 別の会社では、他の部署から情報をもらおうとしても壁が高くて教えてもらえなかったり、ということがありましたが、今は近い席の人に聞けば答えが返ってきます。自分のカバー範囲以外のことの知識も徐々に入ってくるようになりました。好奇心を満たす上でも楽しいですね。
村松 具体的なエピソードってありますか?
見崎 例えば監視システムについてですね。今年の4月からネットワークとストレージとクラウドの部署が一緒になって、監視ツール「Grafana」を入れました。僕たちの部署にはノウハウがなかったんですが、他のチームでは既に使っていたので、3グループが一緒にやっていく中で、すべてGrafanaで見られるようにしちゃおうと。横断して監視できるからトラブルシューティングもすごく楽ですし。部署ごとに壁があると、こうした横断的な監視は難しいと思います。
■ 「自宅にラックが!」「なくても大丈夫です」
村松 まだまだ質問したいことがありまして! 先ほどフラッシュストレージの話がありましたが、ストレージ製品の知識ってどうやって身に付けたんですか? 仕事を始めてからストレージの知識を得たんですよね? 会社で買って触らせてもらわないと知識が身に付かないと思うんですが。
金井 買ってはいませんが、各メーカーさんのラボにお邪魔して丸一日使わせてもらったりはします。「こういうことをしたい」と伝えて一緒にやるとか。ここ2~3年はそういうやり方ですね。メーカーさんがこのやり方に付き合ってくれる背景には、弊社がクラウドというサービスを既に提供しているという信頼関係があります。
村松 1日に集中してががっと知見が得られる金井さんはすごいですね。僕は手元に機械があってずっと触っていないとなかなか身に付かないんですよ。
金井 マニュアルは読みあさってます。メーカーさんのエンジニアと話すために言葉を合わせるのは重要ですね。
村松 僕は触ると興味が出てきて、それからマニュアルを読む派ですね……。
見崎 同じです。僕もそのタイプです。
金井 そういう意味では自宅で触っていますね。自宅はDASです。
村松 ご自宅にラックでもあるとか?
金井 あー……あるんです(笑)。
村松 奇遇ですね! 実は僕も家にハーフラックがあって、その話をしたら会社のみんなにワイワイ言われて、はてなのアカウントが「halfrack」になったという経緯があります(笑)。
金井 私は最近、先輩社員に譲ってもらったんです。そのおかげでサーバーが子供に触られずに済むので安全です(笑)。
──いい話ですね!
見崎 僕はラックない派なんですけど(笑)。
金井 ラックがなくても大丈夫ですよ、うちは(笑)。
■ GPUコンピューティングに時間課金のニーズ
──7月28日に発表があったGPUコンピューティングへの取り組みは、どんな背景で始めたのですか?
金井 GPUに関しては上司が1年ぐらい企画を練っていたのですが、今回はディープラーニングプラットフォームという企画で出しました。クラウドはスケールメリットを追求するものですが、GPUでレンダリングするサービスなどではスケールメリットが出ません。一方、ディープラーニングだと時間課金が成り立つことが分かりました。
──機械学習のニーズが高まっていたことが背景にはあるのですね。
金井 はい、これならいけそうだと。ちなみに、私の自宅にはGPUコンピューティングの環境……があります(笑)。フレームワークの上でコードを100行ぐらい書くと機械学習ができちゃう。機械学習の需要でデータセンター事業が伸びるという狙いはあります。
──GPUコンピューティングで難しい部分ってどこなんですか?
金井 例えば、GPUという物理的なデバイスを仮想マシンに生で見せるところはチャレンジングですね。他社で苦戦しているところもあるようです。
村松 GPUは仮想化に向いてないですよね! 仮想化しないで出すならできますが。
金井 そうですね。かといって物理サーバーだと時間課金もできないですし。
──今までのお話を伺っていると、DDoS攻撃への対処や組織づくりの話題も含めて、いろいろな課題を主に正攻法で解決しているのだと感じました。
村松 飛び道具を使わず正攻法でいくのが、コストを下げて、安くて良いものを作るという考え方のような気がしますね。
見崎 変なことをやると維持コストがかかりますから。奇をてらったことをやろうとしている訳ではないですし、いろいろな人に使ってもらえるようなものを作りたいですね。
金井 IDCFクラウドでも「シンプル」「パワフル」とずっと言ってきました。「説明が難しいことはしない」という立場ですね。いいソリューションは説明しやすいはずですから。
──そこでも「お客様に説明できるかどうか」というところが生きてくるんですね。面白いお話をありがとうございました。
■ 手元のノートパソコンもオールフラッシュ!ということで、サーバーグレードのSSDを1名様にプレゼント!
※キャンペーンは終了しました。たくさんのご応募、ありがとうございました。
記事をお読みの方の中から抽選で1名様に、Intelのサーバー向け高性能SSD「Intel SSD DC S3510 800GB」をプレゼントいたします。応募方法は、下記の応募要項をご覧ください。
<プレゼント応募要項>
- 応募期間
- 2016年9月6日(火)から2016年9月20日(火)24時まで
- 賞品と当選人数
- Intel SSD DC S3510 800GB を1名様
- 応募方法
- Twitter連携した上で、この記事をはてなブックマークに追加してください
※プライベートモードでのご利用は対象外です - 当選発表
- 厳正なる抽選の後、本記事で、当選者様を発表させていただきます
- 賞品発送
- 当選発表後、はてなよりメールをお送りし、送付先情報(送付先住所、受取人氏名、電話番号)をお聞きします
※プレゼントの発送は日本国内に限らせていただきます
※当キャンペーンはインテルの提供・協賛によるものではありません。
■ 2016年10月6日追記:プレゼント当選者発表!
厳正な抽選の結果、当選された方を発表します。おめでとうございます!
Intel SSD DC S3510 800GB:1名様
当選者の方には、のちほど送付先情報を確認するメールをお送りいたします。
- ※期日までにご返信をいただけなかった場合は、再度抽選を実施し、繰り上げ当選者へ当選権をお渡しします。
- ※繰り上げ当選が発生した場合、発表は、はてなからの当選連絡をもって代えさせていただきます。ご了承ください。
[PR]企画・制作:はてな
取材・構成:星 暁雄
写真:赤司 聡