Amazon EC2 Inf1 インスタンスを使用すべき理由
さまざまな業界の企業が、ビジネスイノベーションを推進し、カスタマーエクスペリエンスを向上させ、プロセスを改善するために、人工知能 (AI) を活用した変革に注目しています。AI アプリケーションを強化する機械学習 (ML) モデルはますます複雑化しており、その結果、基礎となるコンピューティングインフラストラクチャのコストが増加しています。ML アプリケーションの開発と実行にかかるインフラストラクチャ支出の最大 90% は、多くの場合、推論に費やされます。お客様は、ML アプリケーションを本稼働環境にデプロイするための費用対効果の高いインフラストラクチャソリューションを求めています。
Amazon EC2 Inf1 インスタンスは、高パフォーマンスかつ低コストの ML 推論を提供します。同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍高く、推論あたりのコストが最大 70% 削減されます。Inf1 インスタンスは ML 推論アプリケーションをサポートするためにゼロから構築されました。AWS が設計開発したハイパフォーマンスの ML 推論チップである、AWS Inferentia チップを最大 16 個搭載しています。さらに、Inf1 インスタンスには、第 2 世代の Intel Xeon スケーラブルプロセッサと最大 100 Gbps のネットワークが搭載されており、高いスループットの推論が可能です。
お客様は、Inf1 インスタンスを使用して、検索、レコメンデーション、コンピュータービジョン、音声認識、自然言語処理 (NLP)、パーソナライゼーション、不正検出といった大規模な ML 推論アプリケーションを実行できます。
デベロッパーは、TensorFlow、PyTorch、MXNet などの人気の ML フレームワークと統合される AWS Neuron SDK を使用して、Inf1 インスタンスに ML モデルをデプロイできます。 デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更で、かつ、ベンダー固有のソリューションに縛られることなく、シームレスにアプリケーションを Inf1 インスタンスに移行できます。
Amazon SageMaker、Neuron SDK で事前設定された AWS Deep Learning AMI (DLAMI)、Amazon Elastic Container Service (Amazon ECS) または Amazon Elastic Kubernetes Service (Amazon EKS) を使用して Inf1 インスタンスを簡単に使用開始できます。
Amazon EC2 Inf1 インスタンス
利点
特徴
お客様とパートナーの声
お客様とパートナーが Amazon EC2 Inf1 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。
-
Snap Inc.
当社は Snapchat の多くの側面において ML を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS との連携を開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、ML のデプロイを支援しました。当社はレコメンデーションモデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています。
Snap Inc.、VP Engineering、Nima Khajehnouri 氏 -
Sprinklr
Sprinklr の AI 駆動型の統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。これにより、プロアクティブな問題解決、製品開発の強化、コンテンツマーケティングやカスタマーサービスの改善などを実現します。Amazon EC2 Inf1 を使用することで、NLP モデルのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルの 1 つのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により優れたサービスを提供していきたいと考えています。
Vasant Srinivasan 氏、Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント -
Finch Computing
当社の最先端の NLP 製品である Finch for Text は、ユーザーが膨大な量のテキストから複数タイプのエンティティを抽出、明確化、強化できるようにします。Finch for Text は、グローバルなデータフィードで低レイテンシーのエンリッチメントをクライアントに提供するために、膨大なコンピューティングリソースを必要とします。現在、当社の PyTorch NLP、翻訳、およびエンティティ語義曖昧性解消回避モデルで、AWS Inf1 インスタンスを使用しています。推論スピードとパフォーマンスを維持しながら、最小限の最適化で推論コストを 80% 以上 (GPU の場合) 削減することができました。この改善により、当社のお客様は、ストリーミングデータフィード上で、世界規模でフランス語、スペイン語、ドイツ語、オランダ語のテキストをリアルタイムにエンリッチできます。これは、金融サービス、データアグリゲーター、公共部門のお客様にとって非常に重要なことです。
Finch Computing、Chief Technology Officer、Scott Lightner 氏 -
Dataminr
当社は、世界中のさまざまな種類のイベントについてのアラートを、さまざまな言語、さまざまな形式 (画像、動画、音声、テキストセンサー、これらすべての種類の組み合わせ) で数十万のソースから発出します。その規模を考えると、スピードとコストを最適化することは、当社のビジネスにとって絶対的に重要です。AWS Inferentia により、モデルのレイテンシーが短縮され、1 USD あたりのスループットが最大 9 倍向上しました。これにより、コストを抑えつつ、より高度な DL モデルをデプロイし、5 倍のデータ量を処理できるようにすることで、モデルの精度を高め、プラットフォーム機能を拡大できました。
Dataminr、Chief Scientist 兼 Senior Vice President of AI、Alex Jaimes 氏 -
Autodesk
Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習 (DL) の手法を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、お客様から毎月寄せられる 100,000 件以上の質問に回答しています。Inferentia のパイロット運用では、NLU モデルで G4dn よりも 4.9 倍多いスループットを得ることができました。Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています。
Binghui Ouyang 氏、Autodesk、Data Scientist -
Screening Eagle Technologies
地中レーダーの使用と視覚的な欠陥の検出は、通常、エキスパートである測量士が行う領域です。AWS のマイクロサービスベースのアーキテクチャにより、自動検査車や検査員が撮影した動画を処理することができます。社内で構築したモデルを従来の GPU ベースのインスタンスから Inferentia に移行することで、コストを 50% 削減することができました。さらに、G4dn GPU インスタンスとの時間を比較すると、パフォーマンスの向上を確認することができました。当社のチームは、Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行するのを楽しみにしています。
Screening Eagle Technologies、Chief of Cloud 兼 AI Officer、Jesús Hormigo 氏 -
NTT PC Communications
NTT PC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信会社のリーダーです。
NTT PC は、高度な姿勢推定 ML モデルに基づいた動作分析 API プラットフォームサービスである AnyMotion を開発しました。フルマネージド型のコンテナオーケストレーションサービスとして、Amazon ECS を使用して Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイしました。当社は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、AnyMotion サービスの質を大規模に改善するのに役立つでしょう。
株式会社エヌ・ティ・ティピー・シーコミュニケーションズ、Software Engineer、Toshiki Yanagisawa 氏 -
Anthem
Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。
デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量のお客様の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、DL 自然言語モデル (トランスフォーマー) を介してお客様の意見から実用的なインサイトを自動化します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentia プロセッサを搭載した Amazon EC2 Inf1 インスタンスに DL 推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました。
Anthem、Principal AI/Data Scientist、PhD、Numan Laanait 氏および Miro Mihaylov 氏 -
Condé Nast
Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超える主要なメディアブランドが含まれています。当社のチームは数週間でレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減を実現できました。
Condé Nast、AI Infrastructure、Principal Engineer、Paul Fryzel 氏 -
Ciao Inc.
Ciao は、従来のセキュリティカメラを、人間の目と同等の機能を持つ高性能分析カメラに進化させました。当社のアプリケーションは、災害防止を進め、クラウドベースの AI カメラソリューションを使用して環境条件を監視し、災害が発生する前に警告を発します。このような警告により、発生した状況に対して事前に対応できます。物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。Inf1 の大幅なコスト効率を活用して、Inf1 でより多くのサービスを提供できることを楽しみにしています。
株式会社チャオ、Software Engineer、Shinji Matsumoto 氏 -
The Asahi Shimbun Company
朝日新聞は、日本で極めて広く読まれている日刊紙の 1 つです。当社の部門の 1 つとして設立されたメディアラボは、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります」
株式会社朝日新聞社、Media Lab、Senior Administrator、PhD、田森 秀明 氏 -
CS Disco
CS Disco は、弁護士が弁護士のために開発した、e ディスカバリーの AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な NLP モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの好ましい経験に基づいて、CS Disco は Inferentia への移行の機会を探っています。
Alan Lockett 氏、Sr.Director of Research、CS Disco -
Talroo
Talroo は、ユニークな求職者を引き付けて採用できるようにするデータ駆動型のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化します。Talroo は Amazon EC2 Inf1 インスタンスを活用して、SageMaker を使用して高スループットの NLU モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することが示されています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています。
Talroo、Software Engineer、Janet Hu 氏 -
Digital Media Professionals
ディジタルメディアプロフェッショナル (DMP) は、AI をベースとする ZIA™ プラットフォームで未来を可視化しています。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関するインサイトを構築します。画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4 倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイできます。
株式会社ディジタルメディアプロフェッショナル、Sales & Marketing Group、Director & General Manager、Hiroyuki Umeda 氏 -
Hotpot.ai
Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。
ML は当社の戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができたことはすばらしいことでした。Inf1 インスタンスは、当社の研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。当社は AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です。
Hotpot.ai、Founder、Clarence Hu 氏 -
SkyWatch
SkyWatch は、毎日、宇宙からキャプチャされる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えながら、高品質の衛星画像を提供し、全体的な運用コストを削減することができました。Inf1 インスタンスを使用して、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに改善するのを楽しみにしています。
SkyWatch、Engineering Manager、Adler Santos 氏 -
Money Forward Inc.
株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。マネーフォワードのグループ会社である HiTTO は、このプラットフォームの一環として、法人のお客様の多様なニーズに対応するために、オーダーメイドの NLP モデルを用いた AI チャットボットのサービスを提供しています。
当社の AI チャットボットサービスを Amazon EC2 Inf1 インスタンスに移行するのは簡単でした。移行は 2 か月以内に完了し、Amazon ECS を使用して Inf1 インスタンスで大規模なサービスを開始しました。Inf1 インスタンスあたり複数のモデルを提供することで、推論レイテンシーを 97% 削減し、推論コストを (同等の GPU ベースのインスタンスと比較して) 50% 以上削減しました。Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行することを楽しみにしています。
株式会社マネーフォワード、CTO office、Technical lead、Kento Adachi 氏 -
Amazon Advertising
Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながるのをサポートします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。
ニュースブログを読むテキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシーの低減と 71% のコスト削減が既にベンチマーキングされています。
Amazon Advertising、Applied Scientist、Yashal Kanungo -
Amazon Alexa
AWS を利用する Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。当社は、Alexa が常によりスマート、対話的、プロアクティブであり、より多くの喜びをもたらすものとなるようにすることをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善する必要があります。そのため、当社は、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用することで、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善できます。
Amazon Alexa、Senior Vice President、Tom Taylor -
Amazon Prime Video
Amazon Prime Video は、Prime Video 会員に最適な視聴者エクスペリエンスを提供できるように、コンピュータビジョンの ML モデルを使用してライブイベントの動画品質を解析します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、音声ファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、さらに強化した視聴エクスペリエンスを Prime Video 会員に提供したいと考えています。
Amazon Prime Video、Solutions Architect、Victor Antonino -
Amazon Rekognition and Video
Amazon Rekognition は、お客様が物、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の DL インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Amazon Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。当社はこれらの結果に基づいて、お客様がより早く正確な結果を取得できるように、Amazon Rekognition を Inf1 に移行しています。
Amazon Rekognition and Video、SW Engineering、Director、Rajneesh Singh 氏
製品の詳細
* ここでは、米国東部 (バージニア北部) の AWS リージョンでご利用いただいた場合の料金を示しています。1 年間または 3 年間のリザーブドインスタンスの料金は、「一部前払い」オプション、あるいは一部前払いオプションのないインスタンスの「前払いなし」オプションに対応します。
Amazon EC2 Inf1 インスタンスは、米国東部 (バージニア北部)、米国西部 (オレゴン) の AWS リージョンにおいて、オンデマンドインスタンス、リザーブドインスタンス、またはスポットインスタンスとしてご利用いただけます。