会社概要
Trenzは、Data Nebulaによって開発された、データ駆動型のインサイトとインテリジェントなワークフローで越境eコマースエコシステムのプレーヤーをサポートするソーシャルコマースプラットフォームです。
ビッグデータとAIを活用し、このプラットフォームは企業が市場動向を分析し、運用戦略を最適化するのを支援します。
データ中心の企業として、Trenzの主要なサービスには以下が含まれます:
- リアルタイム分析: ソーシャルコマースプラットフォームを監視し、ユーザーエンゲージメント、商品人気度、コンバージョン率を追跡。
- AI駆動のインサイト: 機械学習を使用して、グローバル市場での新たなトレンドを発見し、高いポテンシャルを持つ商品を推奨。
- データ可視化: 広告配置やマーケティング戦略を導くための直感的なダッシュボードとレポートを通じて主要な市場データを提示。
アーキテクチャの最適化
以前、Trenzはハイブリッドインフラを運用していました—リアルタイム分析ワークロードはAWS EC2でオンデマンドで処理され、大規模データ処理はオンプレミスで行われていました。
CloudPilot AIによる包括的な評価の後、チームはアーキテクチャを改善しました。まず、すべてのビッグデータワークロードをクラウドに移行し、次にKubernetesを採用してクラウドの弾力性を最大限に活用しました。最後に、コスト削減のためにワークロードをAWS Spotインスタンスに移行しました。
CloudPilot AIの最適化により、同社は高いパフォーマンスとサービスの安定性を維持しながら、クラウド費用を大幅に削減しています。
課題
高額なEC2コストが成長を制限
Trenzのビジネスの中核である、リアルタイムデータ分析は、当初AWSのオンデマンドEC2インスタンス上で実行されていました。しかし、このセットアップではエラスティックなコンピューティングリソースやコスト効率の高いスポットインスタンスを活用できていませんでした。
ワークロードが継続的に実行されるにつれ、EC2コストは急増しました。一方、ビッグデータタスクはオンプレミスのままで、限られたコンピューティング能力に制約され、ビジネスの成長に合わせたスケーリングが困難になっていました。
複雑なリソース管理と限られたスケーラビリティ
Amazon EKS(Elastic Kubernetes Service)を採用する前、Trenzはコンピューティングリソースを自動スケーリングなしで手動管理していました。これにより、いくつかの運用上の課題が生じました:
- リソース使用率の低さ: オンデマンドインスタンスは、使用率が低すぎるか過負荷になることが多かった。
- トラフィックスパイクへの対応の遅さ: 手動スケーリングでは変化するワークロードに対応できず、リアルタイム分析に影響を与えた。
- 高い運用オーバーヘッド: チームは中核的な開発に集中する代わりに、インフラ管理に多大な労力を費やしていた。
スポットインスタンスの信頼性に関する懸念
スポットインスタンスは大幅なコスト削減を提供しますが、Trenzは当初、いくつかのリスクから採用を躊躇していました:
- 予測不可能な中断がタスクの失敗を引き起こし、サービスの信頼性に影響を与える可能性があった。
- インテリジェントなスケジューリングの欠如により、アベイラビリティゾーン間でリソースを効率的に割り当てることが困難だった。
- Sparkジョブの高いネットワークオーバーヘッド。複雑な通信パターンを伴うため、頻繁なスポットインスタンスの変更はAZ間ネットワークコストを増加させるリスクがあり、節約効果を相殺する可能性があった。
クラウドコストの上昇とスケーラブルなインフラの必要性の間で、Trenzは効率性と安定性の両方を提供できるソリューションを必要としていました。
ソリューション
結果
-
✅ EC2コストの60%削減
よりスマートなスポット選択と自動スケーリングにより、オンデマンドインスタンスへの依存度を大幅に削減。
-
✅ コンピューティングの安定性向上
45分前の中断予測と自動移行により、ワークロードをスムーズに実行し続けることが可能に。
-
✅ Sparkパフォーマンスの向上
同一アベイラビリティゾーン内でタスクを実行することでネットワークレイテンシーを削減。
-
✅ 運用オーバーヘッドの削減
完全に自動化されたスケジューリングにより、チームは手動インスタンス管理から解放。
急速に増加するワークロードをサポートするため、Trenzはビッグデータインフラストラクチャをクラウドに完全に移行し、柔軟性とスケーラビリティを向上させることを決定しました。同時に、長期的な持続可能性を確保するためにクラウド支出を削減する必要がありました。
広範な調査とテストの後、TrenzはCloudPilot AIをインテリジェントなクラウド最適化パートナーとして選びました。
CloudPilot AIは、スポットオートメーション、インテリジェントなノード選択、Kubernetesリソース最適化を組み合わせることで、ワークロードの安定性を損なうことなく、チームのコスト削減を大幅に支援します。
Kubernetesの自動スケーリングとスケジューリング
Amazon EKSの採用により、チームは変動する需要に対応するためにリソースのスケーリングを自動化することを目指しました。以前は、手動でインスタンスを調整していましたが、これは非効率で遅いプロセスであり、リアルタイムで対応することができませんでした。
CloudPilot AIは、Kubernetesワークロードのためのインテリジェントなスケジューリングと自動スケーリングを導入しました。スポットキャパシティが利用可能な場合、最も低コストのインスタンスを優先します。需要のピーク時やスポット不足の際には、パフォーマンスを維持するためにオンデマンドインスタンスに自動的に切り替えます。
この自動化はリソース効率を向上させただけでなく、チームがクラウドコストを60%削減するのに役立ちました。
インテリジェントなスポットインスタンス管理
PoC(実証実験)フェーズでは、CloudPilot AIチームはTrenzのワークロードの詳細な分析を行い、スポットインスタンス上で実行されるリアルタイムデータ分析とSparkタスクの安定性に焦点を当てました。
評価の結果、CloudPilot AIの最適化戦略がタスクの安定性を確保しながら、計算コストを大幅に削減できることが示されました。その結果、Trenzはリアルタイム分析とビッグデータワークロードをスポットインスタンスに完全に移行することを決定しました。
以前、チームはスポットインスタンスが予期せず終了し、計算が中断されてデータの正確性に影響を与える可能性を懸念していました。
この問題を軽減するために、CloudPilot AIは45分前の早期通知システム(AWSの2分前通知と比較して)を実装し、スポットインスタンスが回収されるリスクがある場合に事前アラートを提供しました。このシステムは、タスクをより安定したコンピューティングリソースに自動的に移行します。
このプロアクティブなアプローチと自動タスク移行により、継続性が確保され、スポット終了によるリスクが最小化され、手動介入なしでコスト削減が維持されます。
Sparkタスクのアベイラビリティゾーン親和性スケジューリングの最適化
スポットインスタンスの不安定性に加えて、チームはSpark計算におけるネットワーク相互作用によるパフォーマンスのボトルネックに直面していました。Sparkタスクは分散コンピューティングのために複数のノードに依存しているため、アベイラビリティゾーン(AZ)間に分散されたタスクは追加のネットワークトラフィックコストを生成していました。
この問題に対処するために、CloudPilot AIはSparkタスクのスケジューリングロジックを最適化し、タスクが同じアベイラビリティゾーン内で実行されるように優先順位付けします。これによりネットワーク転送コストが削減され、データ処理効率が向上します。
インテリジェントなノード選択と動的リソーススケジューリング
スポットインスタンスリソースが不足している場合でもコンピュートタスクの安定した実行を確保するために、CloudPilot AIはインテリジェントなノード選択を提供します。システムはスポットインスタンスの価格傾向と中断率をリアルタイムで分析し、最もコスト効率が高く安定したインスタンスを自動的に選択します。
スポットインスタンスがコンピュートタスクをサポートするのに不十分な場合、システムは自動的にオンデマンドインスタンスに切り替え、リソース不足によるタスクの中断が決して発生しないようにします。
これにより、Trenzは主にコスト削減のためにスポットインスタンスを使用し、リソースが不足している場合は自動的にオンデマンドインスタンスに切り替えて、タスクの円滑な実行を確保できます。
spot.cloudpilot.ai。インスタンス価格はアベイラビリティゾーン間で30%も変動することがあり、最もコスト効率が高く安定したものを手動で選択することは困難です。
「CloudPilot AIは、ビジネスパフォーマンスを維持しながらAWSコストを60%削減するのに役立ちました。以前は、スポットインスタンスの終了リスクを懸念していましたが、現在はCloudPilot AIの45分前の中断予測とインテリジェントな移行により、サービスは安定しています。
さらに、CloudPilot AIはビッグデータ操作のクラウドへのスムーズな移行をサポートし、Sparkタスクを最適化して不要なデータ転送コストを削減しました。これにより運用負担が軽減されただけでなく、コストやリソース管理に気を取られることなく、ビジネスの成長により集中できるようになりました。」
王瑞恒(ワン・ルイヘン)、Trenzインフラリード
次のステップ
CloudPilot AIにより、Trenzはクラウドベースのリソース管理を最適化し、コスト削減と計算効率の向上の両方を実現しました。
インテリジェントなリソース管理と自動スケジューリングにより、チームは様々な計算需要に柔軟に対応できるようになり、管理コストの削減とリソース利用率の向上を実現し、さらなるビジネス拡大を可能にしました。
今後、Trenzチームはより多くの計算タスクにCloudPilot AIの機能を拡張し、コスト効率をさらに最適化する計画です。また、より細かいリソーススケジューリングとコスト予測においてCloudPilot AIからのさらなるサポートを期待し、ビジネス競争力を高めていきます。