読者です 読者をやめる 読者になる 読者になる
  • Twitter
  • Facebook
  • Google+
  • RSS

フルマネージドのSaaS型クラウド・データベース・サービスdashDBの活用スタイルとは ~手間いらずで高性能、大量データ分析を劇的に効率アップ~


f:id:blog-media:20170215162140j:plain


(※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です)

■ 準備に時間をかけず、チューニング不要で高性能を目指す

野間 愛一郎さん
アナリティクス事業部
インフォメーション・アーキテクト

「準備をしてからデータ分析できるまでの時間を短くしたい。データベース設計や最適化に手間をかけず、高速に分析したい。dashDBはそのような世界を目指しています」。日本IBMの野間愛一郎氏はこう語る。

IBM dashDB - IBM クラウド・データ・サービス - IBM アナリティクス - Japan

dashDBは、IBMが提供するSaaS型クラウドデータベースサービスである。その特徴は、以下の3つだ。

1. フルマネージドなクラウド上のデータベース・サービスなのでチューニングも管理も不要なこと
2. インメモリ列指向DBなのでデータ分析の性能が高いこと
3. 多くのデータソースや分析ツールと連携できる充実したエコシステムを持つこと

従来の情報システムの常識では、データベースといえば専門家による設計、チューニング、管理が必要なものだった。dashDBは、例えばExcelファイルからデータを抽出して今すぐデータ分析に活用できるレベルの手軽さを備えたサービスとして提供されている。

■ Wi2は1週間かかっていたデータ分析をほぼリアルタイムへと改善

「手間をかけずに高性能でデータ分析」──まさにその目的でdashDBを用いているユーザー企業が、公衆無線LANサービスなどWi-Fi事業を展開する株式会社ワイヤ・アンド・ワイヤレス(以下、Wi2)である。同社の利用スタイルを見ていこう。

まず同社がdashDBを導入した背景には「TRAVEL JAPAN Wi-Fi」プロジェクトがあった。インバウンドビジネスの活性化を目指す企業や自治体が共同で進めるこのプロジェクトでは、訪日外国人観光客に対して専用のスマートフォンアプリを提供し、無線LANサービスを無料で自由に使えるようにする。ここで集まる膨大なデータの分析に基づくサービスを提供したいということが、Wi2のシステムの大きな目的である。

岩崎 純一さん
アナリティクス事業部
テクニカルセールス

全国20万ヶ所以上もある無線LANのアクセスポイントからは、利用者の使用言語や地理的な位置に関する情報などが取得できる。例えば、訪日外国人観光客が成田空港に到着し、専用スマートフォンアプリをダウンロードした後に、どこへ向かおうとするのかが見えてくる。また、専用スマートフォンアプリからアンケート結果なども送られてくる。これらの情報に基づき、利用者に対して、観光に役立つ情報に加えおすすめのサービスや商品、クーポン、ポイント特典などの情報を提供する。

専用アプリや全国のアクセスポイントから届く利用者の情報は貴重なデータ資源といえる。だが、そのデータ量は膨大だ。その管理と分析のための手段をWi2は必要としていた。それまでは他社のクラウド上のデータベースサービスを使っていたのだが、大きな不満を感じていた。集めたデータを分析するための前処理(構造化)を外注に出しており、その準備に約1週間かかる。データの処理が遅く、構造化したデータの分析にも1時間程度の時間が発生していた。また緯度・経度で示された位置情報を地図上にマッピングする処理にも時間とコストがかかっていた。

Wi2はこれらの課題を解決するため、IBMが提供する「IBM dashDB」と「IBM Cloudant」、2種類のSaaS型のクラウド・データベース・サービスを連携させて活用することにした。CloudantはNoSQLデータベースで、JSON形式で収集したデータをそのまま格納できる。この生データから必要な項目を抽出、構造化してdashDBに同期し、さまざまな切り口からのデータ分析に活用する。

Cloudantは、REST APIをサポートし、JSON形式やテキスト形式のデータを扱える。JSON形式で格納されたデータを、自動的に構造化データに変換してdashDBに同期する機能も備えている。「クラウド上のNoSQLサービスで、RDBと自動連携できる機能を備えているのはCloudantぐらい」と野間氏は話す。連携の指定もWebベースのユーザーインタフェースで手軽に行える。

dashDBとCloudantを活用することで、1週間かかっていたデータの前処理、1時間を要していたデータ分析が、数秒から数分のオーダーまで短縮できた。1週間からほぼリアルタイムへと、劇的な改善ができたわけだ。

もう一つ、Wi2にとって価値があった機能として、Cloudantが地理情報を扱う関数を標準で備えていたことがある。地図上で位置を指定し、関連するデータを検索するといった処理を効率よく記述、実行できる。抽出したデータをdashDBと組み合わせて使うことも簡単だ。

「TRAVEL JAPAN Wi-Fi」プロジェクトでは地理情報が重要な手がかりとなるので、この機能は非常に有り難かった。なお、CloudantだけでなくdashDB側にも地理情報の関数は備わっている。

同社が抱えていた課題──膨大なデータの前処理に1週間の時間がかかること、データ分析の性能が悪く1時間も待たされること、地理情報を扱う良い手段がなかったこと──は、非構造化データや地理情報を扱えるCloudantと、データを構造化して同期し高速に分析できるdashDBとの組み合わせにより解決できた。公衆無線LANのユーザーの活動とともに日々刻々と集まる膨大なデータをリアルタイムに分析、可視化できるようになったのである。

Wi2のシステムでは、インデックスなしで処理が高速なdashDBのメリットも有効だった。

「例えば、『利用者のデータを国別に分析したい』といった場合、対話的に繰り返しクエリを投げてデータ分析ツールで分析する使い方となる。このような場合はレスポンスが速いdashDBは使いやすかった。同じSQLでも以前より速くデータが返ってくる。インデックス生成もせずデータを放り込むだけで高速に処理できる」(日本IBMの岩崎純一氏)。

Wi2は今後、リアルタイムの分析力を強化し、利用者の行動を「先読み」することに取り組んでいる。過去の行動履歴だけでなく、その次にどこを訪れるのかを予測する。「訪日外国人観光客が行きそうな場所に関係する、喜んでくれる情報は何か」を予測できれば、精度が高いリコメンドができる。

さらに、「IBM Watson」やディープ・ラーニング、AI(人工知能)などの技術を取り入れながら、この課題にチャレンジしていく考えだ。

■ データベース・サービスも取捨選択の時代に

改めて、dashDBの位置づけと、その特色について詳しく見ていこう。

IBMのデータ管理に関する製品/サービスは幅広いラインナップがある。野間氏は「全方位戦略です」と表現する。通常のオンプレミスの情報システムではDB2がある。ハイパフォーマンスなデータベース製品として、アプライアンス製品の「IBM PureData System for Analytics」(旧名称Netezza)がある。非構造化データに対してはHadoopのフレームワーク群を提供する「IBM BigInsights」や、先のWi2の利用事例で使われているドキュメント型データベースのCloudantもある。

そのような幅広いラインナップの中で、dashDBはフルマネージドのクラウドサービスとして、手間をかけずにデータ分析をしたいユーザーに特に向くサービスとして位置づけられている。「dashDBが目指すのはユーザー側により近い世界。カスタマイズもチューニングも不要だが性能が出る。フルマネージドのサービスなので、バックアップなど運用管理の手間がかからない。チューニングは不要だし、パラメータもいじらなくていい。提供したそのままを使うだけで性能が出る」(野間氏)。

データ連携ツールが利用者に優しい作りになっていることもdashDBの大きな特徴だ。「データベースの専門家にとってもデータベースのレプリケーション設定は面倒な仕事。ところがdashDBのツールを使うと、Webインターフェースを使い次から次へと素早くできる」(野間氏)。専門家の手助けをなるべく借りず、時間も気にせず、直ちにデータ分析に取り組みたいと考える現場の担当者に向き合った作りになっている。

dashDBの技術的な特徴に触れておくと、データ分析の目的に対応するためインメモリの列指向データベースとして高速化、高効率を追求している。さらにデータは圧縮された状態で格納および処理されるため、少ないI/Oで大量のデータを処理できる。前述のようにインデックスを作らなくても高速に処理できることも、データを多様な切り口で分析したい利用者にとって大きなメリットとなる。

エコシステムが充実していることもdashDBの強みだ。dashDBの中核となるデータベース・エンジンは伝統あるDBMS(データベース管理システム)製品であるDB2と共通のテクノロジーが使われている。DB2とデータベースエンジンが共通であることのメリットとして、実績豊富なDB2と連携できる多種多様な関連製品を使うことができる。「JDBC、ODBCに対応するツールなら、ほぼつながります」と野間氏は話す。

Wi2の利用事例ではデータ分析と可視化のツールとして、他社製のBIツールをdashDBと連携させて活用している。「今は、クラウドのエコシステムが成熟していて、その中から適材適所でさまざまなベンダーの製品を活用できる時代です」と野間氏は説明する。データ管理にdashDBを使う場合でも、組み合わせる相手はIBM製のツールでなくてもよい。

dashDBはクラウド上のデータベースだが、必ずしもIBMが提供するクラウドサービスBluemix上でなければ使えない訳ではない。「他社クラウドにdashDBを載せて動かすことも可能です」と野間氏は説明する。なお、Wi2の利用事例の場合はパフォーマンスを出すためにIBM Bluemix Bare Metal Server上でdashDBを稼働させ、他社のクラウドと連携させて活用している。

■ 多彩なdashDBの機能 地理情報だけでなくTwitterのデータも分析

dashDBの機能は多彩だ。例えばR言語による分析機能が組み込まれている。前述したように、地理情報を扱う関数も備える。Twitter上のデータを取り込むインターフェースまで用意されている。

キーワードを入力し、Twitterを検索したデータを取得してdashDB上で分析、それを他のツールで可視化するといった分析が、基本機能の範囲内でできてしまう。

キーワード「うどん」「関西」に言及しているtweetを取得。

データをロードする。

「うどん」「関西」に言及しているtweetについて、アクティビティやハッシュタグなどがすぐに可視化される。

dashDBを使用してTwitterのデータをロード・分析する説明の動画は以下で見ることができる。

dashDB に Twitter データをロードする - YouTube

* * *

専門家による最適化も管理も不要でベストなパフォーマンスを発揮し、データ分析用サービスとして高水準のAPI群を提供し、しかも多種類のデータソースとデータ分析ツールと連携できるdashDBは、今すぐデータ分析を始めたい人にとって見逃せないサービスとなっているのだ。

IBM dashDBの無料Webセミナーが実施されます

法人を対象に、「IBM dashDB」のWebセミナーが開催されます。参加費は無料で、事前登録制です。現場のためのセルフサービス分析環境を支援/提供するフルマネージド・サービスとして、簡単な機能紹介や利用シーン、実際のデモンストレーションを交え、「サービス作成~クエリ実行~データの投入~BIツール等との連携」を紹介する内容です。この機会にぜひご検討ください。

  • 参加費:無料(事前登録制)
  • 開催日時:2017年3月8日(水) 17時~17時45分

IBM クラウドで実現するデータ分析の強力なエンジン「IBM dashDB」 ~フルマネージド・サービスで運用いらず、部門DWHもデータのロードだけで実現~ - Japan
IBM dashDB - IBM クラウド・データ・サービス - IBM アナリティクス - Japan

[PR]企画・制作:はてな

取材・構成:星 暁雄
写真:小高 雅也