ロッテショッピングeコマースのMSAをWhaTapのモニタリングで最適化した事例
WhaTapのモニタリングを使用している顧客企業「ロッテショッピングeコマース」は、オンラインとオフラインを統合し、便利な顧客体験を提供するプラットフォーム「ロッテON」を運営しています。ロッテONは長年トップの流通企業としての強みを生かし、オンライン・オフラインの7つの事業部門を統合して作ったeコマース統合プラットフォームです。ロッテONは昨年12月と今年1月に初めてMAU200万人を超え、一日平均トラフィックは33万を維持しています。
ロッテONは今まで他のモニタリングサービスを利用していましたが、不便を感じてWhaTapのモニタリングに変更したそうです。エンタープライズ企業のロッテショッピングeコマースがなぜWhaTapを選択したのか、どのように使用しているのかについて、より具体的な話を伺うためにチョン・ソンミン代理にインタビューを行いました。
Introduction:顧客企業とインフラ状況の紹介
ロッテONの会社とサービスについて簡単に紹介をお願いします。
ロッテONはロッテの代表ショッピングモールを一つに集め、ユーザーが簡単にアクセスできるようにしたeコマース統合プラットフォームです。ロッテホームショッピング、ハイマート、スーパーフレッシュなどを一つのプラットフォームですべてアクセス可能にして便利な顧客体験を提供するサービスで、オンラインとオフラインを統合してお客様に新鮮なストーリーをお届けできるように努力中です。
ロッテは多様なサービスを提供していますが、どのような環境で進めてきたのでしょうか?
弊社は多様なデジタルジャーニーを経験しながら、サービスを提供しました。1996年にオンプレミス環境でロッテインターネット百貨店サービスを構築したのを皮切りに、15年度、16年度からはクラウド環境に変更してナイキ、ユニクロサービスをオープンしました。その後はロッテインターネット免税店をクラウド環境でMSAを使用して構築しました。2018年にはエルロッテをクラウドネイティブ環境に構築し、ついにロッテONサービスを構築することになりました。
Challenge:WhaTapの導入から使用レビュー
WhaTapのモニタリングサービスを導入した背景と選択の理由は何でしょうか?
ロッテONサービスはAWSクラウド内でEKS、MSA構成でサービスされています。何よりもロッテONのアーキテクチャは非常に複雑に構成されているため、これをどのようにモニタリングするかが構築時期から私たちに与えられたミッションでした。特に複雑なアーキテクチャ構造とともにKubernetesもモニタリングしなければなりませんが、当時はKubernetesのモニタリングサービスが多くなかったこともあり、MSAに分かれた領域をどのように実務者に迅速に伝達するかが大きな悩みでした。他の海外のモニタリング製品も考慮しましたが、最終的にWhaTapを選択しました。WhaTapを選んだ最大の理由は、直観的で見慣れたUIのためです。APMといえば、開発者はもちろん、誰でも簡単にアクセスできて確認できるべきだと思いました。問題を迅速に確認して共有できるという点で、WhaTapの直観的なダッシュボードと見慣れたUIが非常に強力なので選びました。
WhaTapの導入後、どのように使用しているのか教えてください。
弊社がよく活用している機能は三つあります。まずはダッシュボードの状況です。ロッテONサービスの主なビジネス指標である決済件数や注文件数などのさまざまなデータをグラフ化したダッシュボードをモニタリングしています。これは、ロッテONが影響を受ける可能性のある他のビジネスサービスから迅速に対応できるようにサポートしてくれます。例えば、他のクレジットカード会社に問題があって注文が失敗した場合、その決済手段をコントロールして問題に迅速に対処できます。
二つ目は、柔軟な通知機能です。弊社のサービスはMSAに分かれていて、それぞれ担当者が分かれているため、Slackのチャンネルも別に存在します。各MSAサービスの問題を各チャンネルに合うようにしきい値設定が可能で、担当者ごとに適切な通知を受け取ることができます。
最後の三つ目は、統計/レポート機能です。MSAごとに発生するexceptionを週別に確認することができ、これを各担当者に共有して措置が必要な部分を確認し、フォローアップしています。このような統計情報は、問題の事前予防機能とともに問題の原因分析にも大きく役立っています。障害がある時点にどのようなexceptionが多く発生したのかを確認するのに役立ちます。
WhaTapを利用して解決した経験について教えてください。
それについては、二つの経験をお話しできます。まず一つ目は、ポイント獲得イベントの際に発生した問題でした。特定の商品についてアンケートに回答していただいたお客様を対象にポイントを付与するイベントでしたが、イベント設定が正しくなく、全商品にこのイベントが適用されてしまいました。全商品を対象にレビュー作成時に3000ポイントを付与することになったのですが、その内容が多様なインターネットコミュニティサイトに急速に広がり、瞬間的に大量のトラフィックが集中する事態が発生しました。これにより、特定のPODにCPUが大幅に上昇し、トランザクションを処理できず遅延が発生してしまいました。
当時、その状況でWhaTapのEKS PODモニタリングのダッシュボードを非常にうまく活用して解決しました。このダッシュボードの各PODコンテナ別のリソース状況をリアルタイムで確認することができ、直観的にモニタリングが可能になりました。また、各しきい値を設定することができたので、条件に合わせて通知が届き、関連実務担当者がすぐに確認できるようにしてくれて、とても役に立ちました。また、統計指標を活用して、その時点で問題になっていた特定URLを確認することができ、そのURLを今後の問題発生時にすぐコントロールできるように措置を講じることができました。
二つ目は、年に約2回行われる大規模イベント期間に発生した問題でした。1週間ほど行われるイベントで、その期間中に大量のクーポンをお客様に発行します。お客様が所有しているクーポンが多くなり、商品の決済時に最大割引価格適用ロジックに大きな負荷が生じました。これにより、割引価格適用関連PODにOOMが発生してしまいました。この問題で、弊社はWhaTapのHeap Monitoringを使用しました。問題時と普段を比較してくれるグラフを確認してみたら、問題になった部分はSQLパッチ件数が大きく増加していることがわかりました。障害が発生した際にSQLパッチ件数と現在のSQLパッチ件数を比較モニタリングし、同じ問題が発生しないように対応することができました。また、それぞれのコンテナ別ヒープメモリのしきい値設定をすることで、OOMの兆しが見えればすぐに対応できるように設定し、今まで有効に活用しています。
Management:WhaTapカスタマーサポートサービスと今後の計画
今後、WhaTapをどのように利用する予定ですか?
先程の例以外にも、MSAに構造転換したあと、多様な問題を経験しています。これはMSAに変わり、一つのトランザクションに複数のサービスが接続されており、潜在的な危険要素が散在しているためです。単純にAPMダッシュボードで問題だけを感知するのではなく、さまざまな複雑度が高くなったアーキテクチャで多様な分析をしなければならないケースが多くなっています。これは、単純なモニタリングからオブザーバビリティに進むべきミッションが与えられたからです。これからロッテONがオブザーバビリティに向けて進むために、WhaTapで収集されたメトリックをすべて活用し、積極的に可視性を確保するために努力しています。現在もWhaTapエンジニアの方々と協業して追加的なメトリックを活用できるようにしています。
WhaTapのモニタリングソリューションを使用すべき理由について教えてください。
著名な経営学者であるピーター・ドラッカーは、「測定できないものは管理できない」と言いました。単純に品質管理を行うためのモニタリングから、一歩進んでオブザーバビリティを適用するためには、できるだけデータを収集して適材適所に活用しなければなりません。このようなオブザーバビリティを確保して活用するために、WhaTapのモニタリングソリューションは不可欠です。