Amazon EC2 Inf1 インスタンス

高パフォーマンスかつ低コストな機械学習推論

Amazon EC2 Inf1 インスタンスを使用すべき理由

さまざまな業界の企業が、ビジネスイノベーションを推進し、カスタマーエクスペリエンスを向上させ、プロセスを改善するために、人工知能 (AI) を活用した変革に注目しています。AI アプリケーションを強化する機械学習 (ML) モデルはますます複雑化しており、その結果、基礎となるコンピューティングインフラストラクチャのコストが増加しています。ML アプリケーションの開発と実行にかかるインフラストラクチャ支出の最大 90% は、多くの場合、推論に費やされます。お客様は、ML アプリケーションを本稼働環境にデプロイするための費用対効果の高いインフラストラクチャソリューションを求めています。

Amazon EC2 Inf1 インスタンスは、高パフォーマンスかつ低コストの ML 推論を提供します。同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍高く、推論あたりのコストが最大 70% 削減されます。Inf1 インスタンスは ML 推論アプリケーションをサポートするためにゼロから構築されました。AWS が設計開発したハイパフォーマンスの ML 推論チップである、AWS Inferentia チップを最大 16 個搭載しています。さらに、Inf1 インスタンスには、第 2 世代の Intel Xeon スケーラブルプロセッサと最大 100 Gbps のネットワークが搭載されており、高いスループットの推論が可能です。

お客様は、Inf1 インスタンスを使用して、検索、レコメンデーション、コンピュータービジョン、音声認識、自然言語処理 (NLP)、パーソナライゼーション、不正検出といった大規模な ML 推論アプリケーションを実行できます。

デベロッパーは、TensorFlow、PyTorch、MXNet などの人気の ML フレームワークと統合される AWS Neuron SDK を使用して、Inf1 インスタンスに ML モデルをデプロイできます。 デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更で、かつ、ベンダー固有のソリューションに縛られることなく、シームレスにアプリケーションを Inf1 インスタンスに移行できます。

Amazon SageMaker、Neuron SDK で事前設定された AWS Deep Learning AMI (DLAMI)、Amazon Elastic Container Service (Amazon ECS) または Amazon Elastic Kubernetes Service (Amazon EKS) を使用して Inf1 インスタンスを簡単に使用開始できます。

Amazon EC2 Inf1 インスタンス

利点

Inf1 を使用すると、デベロッパーは、ML の本稼働用デプロイコストを大幅に削減できます。Inf1 インスタンスの低いインスタンスコストと高いスループットの組み合わせにより、同等の Amazon EC2 インスタンスよりも推論あたり最大 70% のコストを削減できます。

Neuron SDK は、TensorFlow、PyTorch、MXNet などの一般的な ML フレームワークと統合されています。デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更でアプリケーションを Inf1 インスタンスにシームレスに移行できます。これにより、ベンダー固有のソリューションに縛られることなく、任意の ML フレームワーク、および要件に最適なコンピューティングプラットフォームを自由に使用し、最新のテクノロジーを活用することができます。

Inf1 インスタンスは、同等の Amazon EC2 インスタンスよりも最大 2.3 倍高いスループットを提供します。 Inf1 インスタンスを強化する AWS Inferentia チップは、小さなバッチサイズでの推論パフォーマンス向けに最適化されているため、リアルタイムアプリケーションでのスループットを最大化し、レイテンシー要件を満たすことができます。

AWS Inferentia チップには、ML モデルをチップ自体に直接キャッシュできる大容量のオンチップメモリが装備されています。NeuronCore Pipeline などの機能を使用してモデルをデプロイすると、外部のメモリリソースにアクセスする必要がなくなります。Inf1 インスタンスを使用すると、帯域幅に影響を与えることなく、ほぼリアルタイムのレイテンシーでリアルタイムの推論アプリケーションをデプロイできます。

Inf1 インスタンスは、画像認識/分類のための SSD、VGG、ResNext や、NLP のための Transformer や BERT など、一般的に使用されている多くの ML モデルアーキテクチャをサポートしています。さらに、Neuron での HuggingFace モデルリポジトリのサポートにより、お客様は、コードを 1 行変更するだけで、事前トレーニング済みモデルや微調整済みモデルを使用して簡単に推論をコンパイルおよび実行できます。複合精度の BF16 および FP16 といった複数のデータ型もサポートし、幅広いモデルとパフォーマンスのニーズに対応しています。

特徴

AWS Inferentia は、低コストでハイパフォーマンス推論を実現するために AWS が専用に構築した ML チップです。AWS Inferentia の各チップは 4 つの第 1 世代 NeuronCore を搭載し、最大 128 テラ演算/秒 (TOPS) のパフォーマンスと、FP16、BF16、INT8 データ型をサポートしています。AWS Inferentia チップは、大規模モデルのキャッシュに使用できる大量のオンチップメモリも備えています。これは、頻繁なメモリアクセスを必要とするモデルに特に役立ちます。

AWS Neuron SDK は、コンパイラ、ランタイムドライバー、プロファイリングツールで構成されています。TensorFlow、PyTorch、MXNet などの一般的なフレームワークで作成およびトレーニングした複雑なニューラルネットモデルのデプロイを、Inf1 インスタンスを使用して実行できます。NeuronCore Pipeline を使用することで、高速の物理的なチップ間相互接続を使って、大規模モデルを分割して複数の Inferentia チップで実行することができ、高いスループットかつ低コストの推論を実現できます。

Inf1 インスタンスは、高速ネットワークへのアクセスを必要とするアプリケーションに、最大 100 Gbps のネットワークスループットを提供します。次世代の Elastic Network Adapter (ENA) と NVM Express (NVMe) テクノロジーにより、Inf1 インスタンスではネットワーキングと Amazon Elastic Block Store (Amazon EBS) 向けに高スループットで低レイテンシーのインターフェイスを利用できます。

AWS Nitro System は構成要素のリッチなコレクションであり、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高パフォーマンス、高可用性、および強力なセキュリティを実現します。

お客様とパートナーの声

お客様とパートナーが Amazon EC2 Inf1 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

  • Snap Inc.

    当社は Snapchat の多くの側面において ML を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS との連携を開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、ML のデプロイを支援しました。当社はレコメンデーションモデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています。

    Snap Inc.、VP Engineering、Nima Khajehnouri 氏
  • Sprinklr

    Sprinklr の AI 駆動型の統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。これにより、プロアクティブな問題解決、製品開発の強化、コンテンツマーケティングやカスタマーサービスの改善などを実現します。Amazon EC2 Inf1 を使用することで、NLP モデルのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルの 1 つのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により優れたサービスを提供していきたいと考えています。

    Vasant Srinivasan 氏、Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント
  • Finch Computing

    当社の最先端の NLP 製品である Finch for Text は、ユーザーが膨大な量のテキストから複数タイプのエンティティを抽出、明確化、強化できるようにします。Finch for Text は、グローバルなデータフィードで低レイテンシーのエンリッチメントをクライアントに提供するために、膨大なコンピューティングリソースを必要とします。現在、当社の PyTorch NLP、翻訳、およびエンティティ語義曖昧性解消回避モデルで、AWS Inf1 インスタンスを使用しています。推論スピードとパフォーマンスを維持しながら、最小限の最適化で推論コストを 80% 以上 (GPU の場合) 削減することができました。この改善により、当社のお客様は、ストリーミングデータフィード上で、世界規模でフランス語、スペイン語、ドイツ語、オランダ語のテキストをリアルタイムにエンリッチできます。これは、金融サービス、データアグリゲーター、公共部門のお客様にとって非常に重要なことです。

    Finch Computing、Chief Technology Officer、Scott Lightner 氏
  • Dataminr

    当社は、世界中のさまざまな種類のイベントについてのアラートを、さまざまな言語、さまざまな形式 (画像、動画、音声、テキストセンサー、これらすべての種類の組み合わせ) で数十万のソースから発出します。その規模を考えると、スピードとコストを最適化することは、当社のビジネスにとって絶対的に重要です。AWS Inferentia により、モデルのレイテンシーが短縮され、1 USD あたりのスループットが最大 9 倍向上しました。これにより、コストを抑えつつ、より高度な DL モデルをデプロイし、5 倍のデータ量を処理できるようにすることで、モデルの精度を高め、プラットフォーム機能を拡大できました。

    Dataminr、Chief Scientist 兼 Senior Vice President of AI、Alex Jaimes 氏
  • Autodesk

    Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習 (DL) の手法を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、お客様から毎月寄せられる 100,000 件以上の質問に回答しています。Inferentia のパイロット運用では、NLU モデルで G4dn よりも 4.9 倍多いスループットを得ることができました。Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています。

    Binghui Ouyang 氏、Autodesk、Data Scientist
  • Screening Eagle Technologies

    地中レーダーの使用と視覚的な欠陥の検出は、通常、エキスパートである測量士が行う領域です。AWS のマイクロサービスベースのアーキテクチャにより、自動検査車や検査員が撮影した動画を処理することができます。社内で構築したモデルを従来の GPU ベースのインスタンスから Inferentia に移行することで、コストを 50% 削減することができました。さらに、G4dn GPU インスタンスとの時間を比較すると、パフォーマンスの向上を確認することができました。当社のチームは、Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行するのを楽しみにしています。

    Screening Eagle Technologies、Chief of Cloud 兼 AI Officer、Jesús Hormigo 氏
  • NTT PC Communications

    NTT PC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信会社のリーダーです。

    NTT PC は、高度な姿勢推定 ML モデルに基づいた動作分析 API プラットフォームサービスである AnyMotion を開発しました。フルマネージド型のコンテナオーケストレーションサービスとして、Amazon ECS を使用して Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイしました。当社は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、AnyMotion サービスの質を大規模に改善するのに役立つでしょう。

    株式会社エヌ・ティ・ティピー・シーコミュニケーションズ、Software Engineer、Toshiki Yanagisawa 氏
  • Anthem

    Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。 

    デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量のお客様の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、DL 自然言語モデル (トランスフォーマー) を介してお客様の意見から実用的なインサイトを自動化します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentia プロセッサを搭載した Amazon EC2 Inf1 インスタンスに DL 推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました。

    Anthem、Principal AI/Data Scientist、PhD、Numan Laanait 氏および Miro Mihaylov 氏
  • Condé Nast

    Condé Nast のグローバルポートフォリオには、WiredVogueVanity Fair など 20 を超える主要なメディアブランドが含まれています。当社のチームは数週間でレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減を実現できました。

    Condé Nast、AI Infrastructure、Principal Engineer、Paul Fryzel 氏
  • Ciao Inc.

    Ciao は、従来のセキュリティカメラを、人間の目と同等の機能を持つ高性能分析カメラに進化させました。当社のアプリケーションは、災害防止を進め、クラウドベースの AI カメラソリューションを使用して環境条件を監視し、災害が発生する前に警告を発します。このような警告により、発生した状況に対して事前に対応できます。物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。Inf1 の大幅なコスト効率を活用して、Inf1 でより多くのサービスを提供できることを楽しみにしています。

    株式会社チャオ、Software Engineer、Shinji Matsumoto 氏
  • The Asahi Shimbun Company

    朝日新聞は、日本で極めて広く読まれている日刊紙の 1 つです。当社の部門の 1 つとして設立されたメディアラボは、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります」

    株式会社朝日新聞社、Media Lab、Senior Administrator、PhD、田森 秀明 氏
  • CS Disco

    CS Disco は、弁護士が弁護士のために開発した、e ディスカバリーの AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な NLP モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの好ましい経験に基づいて、CS Disco は Inferentia への移行の機会を探っています。

    Alan Lockett 氏、Sr.Director of Research、CS Disco
  • Talroo

    Talroo は、ユニークな求職者を引き付けて採用できるようにするデータ駆動型のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化します。Talroo は Amazon EC2 Inf1 インスタンスを活用して、SageMaker を使用して高スループットの NLU モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することが示されています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています。

    Talroo、Software Engineer、Janet Hu 氏
  • Digital Media Professionals

    ディジタルメディアプロフェッショナル (DMP) は、AI をベースとする ZIA™ プラットフォームで未来を可視化しています。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関するインサイトを構築します。画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4 倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイできます。

    株式会社ディジタルメディアプロフェッショナル、Sales & Marketing Group、Director & General Manager、Hiroyuki Umeda 氏
  • Hotpot.ai

    Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。 

    ML は当社の戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができたことはすばらしいことでした。Inf1 インスタンスは、当社の研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。当社は AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です。

    Hotpot.ai、Founder、Clarence Hu 氏
  • SkyWatch

    SkyWatch は、毎日、宇宙からキャプチャされる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えながら、高品質の衛星画像を提供し、全体的な運用コストを削減することができました。Inf1 インスタンスを使用して、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに改善するのを楽しみにしています。

    SkyWatch、Engineering Manager、Adler Santos 氏
  • Money Forward Inc.

    株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。マネーフォワードのグループ会社である HiTTO は、このプラットフォームの一環として、法人のお客様の多様なニーズに対応するために、オーダーメイドの NLP モデルを用いた AI チャットボットのサービスを提供しています。

    当社の AI チャットボットサービスを Amazon EC2 Inf1 インスタンスに移行するのは簡単でした。移行は 2 か月以内に完了し、Amazon ECS を使用して Inf1 インスタンスで大規模なサービスを開始しました。Inf1 インスタンスあたり複数のモデルを提供することで、推論レイテンシーを 97% 削減し、推論コストを (同等の GPU ベースのインスタンスと比較して) 50% 以上削減しました。Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行することを楽しみにしています。

    株式会社マネーフォワード、CTO office、Technical lead、Kento Adachi 氏
  • Amazon Advertising

    Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながるのをサポートします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。

    ニュースブログを読む

    テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシーの低減と 71% のコスト削減が既にベンチマーキングされています。

    Amazon Advertising、Applied Scientist、Yashal Kanungo
  • Amazon Alexa

    AWS を利用する Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。当社は、Alexa が常によりスマート、対話的、プロアクティブであり、より多くの喜びをもたらすものとなるようにすることをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善する必要があります。そのため、当社は、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用することで、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善できます。

    Amazon Alexa、Senior Vice President、Tom Taylor
  • Amazon Prime Video

    Amazon Prime Video は、Prime Video 会員に最適な視聴者エクスペリエンスを提供できるように、コンピュータビジョンの ML モデルを使用してライブイベントの動画品質を解析します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、音声ファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、さらに強化した視聴エクスペリエンスを Prime Video 会員に提供したいと考えています。

    Amazon Prime Video、Solutions Architect、Victor Antonino
  • Amazon Rekognition and Video

    Amazon Rekognition は、お客様が物、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の DL インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Amazon Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。当社はこれらの結果に基づいて、お客様がより早く正確な結果を取得できるように、Amazon Rekognition を Inf1 に移行しています。

    Amazon Rekognition and Video、SW Engineering、Director、Rajneesh Singh 氏

製品の詳細

* ここでは、米国東部 (バージニア北部) の AWS リージョンでご利用いただいた場合の料金を示しています。1 年間または 3 年間のリザーブドインスタンスの料金は、「一部前払い」オプション、あるいは一部前払いオプションのないインスタンスの「前払いなし」オプションに対応します。

Amazon EC2 Inf1 インスタンスは、米国東部 (バージニア北部)、米国西部 (オレゴン) の AWS リージョンにおいて、オンデマンドインスタンス、リザーブドインスタンス、またはスポットインスタンスとしてご利用いただけます。

開始方法

Amazon SageMaker を利用すると、トレーニング済みの ML モデルを簡単にコンパイルして Amazon Inf1 インスタンスで本番にデプロイできるため、レイテンシーを低く抑えながらリアルタイム予測の生成を開始できます。AWS Inferentia 向けコンパイラの AWS Neuron は、Amazon SageMaker Neo と統合しており、トレーニング済みの ML モデルをコンパイルして、Inf1 インスタンスで最適に実行できます。Amazon SageMaker を使用すると、複数のアベイラビリティーゾーンに分散した Inf1 インスタンスの自動スケーリングクラスターでモデルを簡単に実行し、高いパフォーマンスと可用性の両方のリアルタイム推論を実現できます。Github のサンプルを使用して、SageMaker を利用して Inf1 にデプロイする方法を学びましょう。

DLAMI は、その規模を問わず、クラウド上で DL を加速するためのインフラストラクチャとツールを、ML の実践者と研究者に提供します。AWS Neuron SDK は DLAMI にあらかじめインストールされており、Inf1 インスタンスで ML モデルを最適にコンパイルして実行できます。開始方法のプロセスのガイダンスについては、AMI 選択ガイドや他の DL リソースにアクセスしてください。Neuron で DLAMI を使用する方法については、「AWS DLAMI の開始方法ガイド」をご覧ください。

デベロッパーは、フルマネージド Kubernetes サービスである Amazon EKS と、Amazon のフルマネージドコンテナオーケストレーションサービスである Amazon ECS に Inf1 インスタンスをデプロイできるようになりました。Amazon EKS または Amazon ECS での Inf1 の開始方法の詳細をご覧ください。Inf1 インスタンスでのコンテナ実行についての詳細は、Neuron コンテナツールのチュートリアルのページをご覧ください。また、Neuron は AWS 深層学習コンテナに事前インストールされており、使用可能です。