人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 1Win4-67
会議情報

推論サービングのオーバヘッドを削減するイベント駆動型GPUDirect推論
*田仲 顕至北村 研人妹尾 和則
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では、NTTが展開する次世代データセンタインフラストラクチャ(IOWN)において動作するAI駆動型サイバーフィジカルシステムを目指して、DOCA GPUNetIOとCUDA Graphを統合した新たなイベント駆動型ストリーミングGPUコンピューティングシステムを開発した。目的は、低レイテンシオーバーヘッドと低GPU消費電力でのマルチモデル並行実行を実現することである。提案手法では、推論オーバーヘッドを既存技術比で20%削減、スループットを173.2%向上。イベント駆動型推論により、リソース競合なしに最大5つのモデルの推論要求を処理可能であることを実証した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top