人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-86
会議情報

コーパスのドメインサンプリングによるLLM事前学習の効果について
*小原 有以相馬 菜生梶浦 照乃倉光 君郎
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)は様々な業界に革新をもたらしている.その動きの中,特定のドメイン知識を持つドメインに特化したLLMを開発する動きが進められている.そのようなLLMの活用で,ドメインタスクの効率を向上させることが期待されている.特定ドメインに特化したLLMを構築するためには,対象ドメインに関連する大規模なコーパスが不可欠である.しかし,そのようなコーパスの収集は困難であり,時間とリソースが限られている研究環境において,顕著な課題となる.本研究の目的は,ドメインに関連するコーパスを効率的に構築する手法を開発することである.この目的のもと,我々は,ドメインサンプリングという手法を提案する.SentencePieceを用いてドメインの専門用語を多く含む語彙モデルを構築し,トークン化の結果に基づいてドメインに関連するコーパスをサンプリングする手法である.本手法を用いてコードに関連するコーパスを構築し,それを事前学習に用いて日本語対応の軽量コードLLMの構築を行なった.本手法で収集したコーパスをコードLLM学習に用いることで,日本語からのコード生成能力が向上したことを報告する.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top