
全ての産業においてデジタル化が急激に加速し、増加したサーバーとサービスインスタンスを安定的に運用することは多くの企業にとって必然的な課題となりました。特に、広範囲にリアルタイムサービスを提供しなければならない通信会社の場合、安定的な運用と迅速な障害対応が、顧客満足度向上のカギを握っています。
韓国の大手通信会社LG U+は、このようなニーズに先手を打って対応するため、従来のモニタリングシステムを全面的に再整備。既存のレガシーシステムと新規システムが共存するハイブリッドインフラ環境を一元化して、統合モニタリングすることに成功しました。今回の事例では、LG U+が数年にわたって蓄積したインフラ運用ノウハウとともに、多様なシステム間の連携を可能にしたWhaTap Monitoring導入の背景とその成果を詳しく紹介します。
LG U+は、加入回線数が7,000万を超える韓国の大手通信会社の一つで、有線・無線通信、IPTV、スマートホーム、企業ソリューションなど、多様なサービスを提供しています。デジタルトランスフォーメーションが加速する市場環境の中で、LG U+は自社データセンター内のオンプレミス環境(レガシーシステム)とAWS上のパブリッククラウド(新規システム)を共に運用し、サービスの品質向上と安定したIT運用のためのイノベーションを積極的に推進しています。
LG U+は、1日平均1億件のトランザクションを1,000台以上のVMおよびコンテナで処理しており、大規模なトラフィックと高度な分散アーキテクチャを運用する、韓国を代表する企業です。

LG U+の顧客管理システムは、10年前にモノリシックアーキテクチャ基盤で構築されており、Oracle RACの統合DBとUNIXサーバー上で運用されてきました。しかし、加入者数の急増に伴い、1日1億件以上のトランザクションを処理しなければならない環境に変化していく中、既存のインフラとソフトウェア構造は拡張性と俊敏性の両面で限界に直面しました。
統合DBはスケールアップの限界に達し、従来のUNIXサーバーは増設しても費用対効果が低く、クエリ中心のスクリプトベースのソフトウェアは変更影響度の分析が難しく、アプリケーションの複雑性と開発速度の両方に問題を抱えていました。これを受け、LG U+は、ビジネスの俊敏性、可用性、拡張性、そして運用コスト削減を目標に、新たなシステムを構築することを決めました。
新しいシステムはマイクロサービスアーキテクチャ (MSA) とハイブリッドクラウドを基盤にモダンアプリケーションとして設計され、多様なオープンソースコンポーネントと外部連携システムを含む、複雑な分散環境に移行されました。しかし、このような環境の変化はすぐに新たな運用課題につながりました。モニタリング対象が急激に増加し、従来のモノリシック環境では考慮する必要のなかった分散トレーシング、統合ログ収集、コンポーネント間の影響分析など、複雑なモニタリング要件が新たに浮上したのです。

LG U+は、ますます複雑になるモニタリング要件を解決するために、従来使用していたアプリケーション監視、データベース監視、サーバーインフラ監視の業務を一元化できるソリューションの導入を進め、WhaTap Monitoringを選択しました。特に、トランザクションIDを連携してシステム全般の呼び出しフローを追跡できる分散トレーシング機能が、導入を決めた大きなポイントでした。
WhaTapは、グローバルトランザクションIDと独自のMTID (Multi Transaction ID) を通じて、レガシーと新規システムをまたがって呼び出しフローを追跡できる機能を提供しました。また、KAFKAメッセージングの中継処理のような非同期式のサービスもWeaving(ウィービング)技術を使ってトランザクションを連携トレースすることを可能にしました。それに、レガシーシステムについても、フレームワークのコードを修正しなくてもトランザクションIDを挿入し、追跡できる点も高く評価されました。

ハイブリッドクラウド環境においてもWhaTapで簡単に対応することができました。。パブリッククラウドにおけるトラフィック費用を考慮し、クラウド内で収集サーバーを分散構成する一方、オンプレミス環境ではアーキテクチャチーム、IPTV、認証サービスなど部門単位で収集サーバーを配置し、独立性と統合管理を同時に実現しました。

また、WhaTapにより、さまざまなログ収集も可能となりました。インフラログはElasticsearch-Fluentd-Kibana (EFK) スタックで収集しますが、アプリケーションログはフレームワークに対するコード修正なしにWhaTapで収集。分散処理システムにおけるオブザーバビリティが確保できるよう、統合ログ管理を実施できるようになりました。
WhaTap導入後、LG U+は「これまで見ることができなかった分散処理フローが、WhaTapの導入によって見えるようになった」と評価しました。グローバルトランザクションIDがない場合でも、WhaTapが自動で発行するMTIDを活用して全体の呼び出しフローを視覚化。サービス間の呼び出し関係やボトルネックをリアルタイムで把握できるようになりました。運用チームはアラートが発生すると、直ちに当該箇所を確認し、「リソース」と「トランザクション」と「ログ」を連携分析することで、障害対応にかかる時間を大幅に改善しました。
また、単一リスナーサーバー構造により、ファイアウォールの開放などのアクセス権限管理のセキュリティ対策も強化されました。現在は、新規サービスを適用する際には、統合モニタリングツールであるWhaTapエージェントのインストールが必ず求められるようになっており、全社的な標準化ツールとして運用されています。

LG U+は、2018年のアプリケーション性能管理 (APM) 導入を皮切りに、サーバーインフラ監視 (SMS)、データベース監視 (DPM)、Kubernetes、ログ統合モニタリングまで段階的にモニタリング高度化の範囲を拡張してきており、現在はブラウザモニタリングの導入も検討中です。これは、システムごとにサイロ化されたさまざまな監視ツールを導入・運用するのではなく、WhaTap Monitoringという単一のツール(プラットフォーム)でも十分な拡張性と柔軟性を確保できることを示しています。

また、NettyとAkkaなどの非同期式システムにおいてもWhaTapのWeaving(ウィービング)機能を適用。ソースコードの修正なしに追跡監視できるモニタリング環境を実現しており、オンプレミスおよびクラウド環境でもモニタリングサーバーを統合運用することで、パッチおよびメンテナンスを安定的に運用/管理しています。これは、全社レベルでモニタリング基準を統一し、運用の複雑性を効果的に軽減した事例といえるでしょう。
LG U+は、 WhaTapの導入により、業務ごとに分散していたITモニタリング環境を全社的に統合し、障害対応と運用の可視性を大幅に向上しました。トランザクションベースの追跡システムを標準化。障害の原因を迅速に把握して対応できる体制を整え、オンプレミスとクラウドを合わせた環境への柔軟な拡張性も確保しました。

また、NettyとAkkaなどの非同期式システムにおいてもWhaTapのWeaving(ウィービング)機能を適用。ソースコードの修正なしに追跡監視できるモニタリング環境を実現しており、オンプレミスおよびクラウド環境でもモニタリングサーバーを統合運用することで、パッチおよびメンテナンスを安定的に運用/管理しています。これは、全社レベルでモニタリング基準を統一し、運用の複雑性を効果的に軽減した事例といえるでしょう。1つのダッシュボードでシステム全体の流れを俯瞰し、サービス間の呼び出し関係をコンテキストに沿って追跡。ライセンス構造を単純化して不要なコスト削減まで実現したこの事例は、複雑なインフラを運用するエンタープライズ企業にとって、優れたベストプラクティスを提供するものです。
従来のように単純なインフラ中心の考えからDevOps的なIT運用へと変革していく中、その複雑性からくる日々の運用について課題をお持ちでしたら、統合的かつ柔軟なモニタリング環境を構築することができるWhaTapの導入をおすすめします。今回の事例はそれらの課題をWhaTapによって解決することを示しています。また、本事例は韓国国内のものですが、WhaTapの統合モニタリングソリューションはマニュアルやサポート体制を含めてすべて日本語で対応させて頂いております。