人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 2O1-GS-3-02
会議情報

KOGITUNE: 大規模言語モデル向けの分散データセット学習基盤
*相馬 菜生小原 百々雅倉光 君郎片桐 孝洋横手 靖彦石川 裕
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデルの性能は、数百GB以上の膨大なかつ高品質に前処理されたデータセットに支えられている。 この規模のデータセットを単一の組織で開発するのは難しく、複数の組織にまたがった開発を支える分散的なフレームワークが必要になる。 KOGITUNEは、分散データセットによる大規模言語モデル(LLM)の学習を支援する目的で設計された。 基本的なアイディアは、データセットの前処理からテンソル化まで外部マシンで独立的に行い、GPU側にオンデマンド配送して、学習側ではGPUの高利用率の達成を実現することである。 複数のコーパスの混成比率の調整などの実用的な機能も備わっている。 本稿では、KOGITUNEの設計と実装を述べ、KOGITUNEを用いたLLM(0.06B〜1.3B)開発の経験を報告する。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top