主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
大規模言語モデル(LLM)は様々な業界に革新をもたらしている.その動きの中,特定のドメイン知識を持つドメインに特化したLLMを開発する動きが進められている.そのようなLLMの活用で,ドメインタスクの効率を向上させることが期待されている.特定ドメインに特化したLLMを構築するためには,対象ドメインに関連する大規模なコーパスが不可欠である.しかし,そのようなコーパスの収集は困難であり,時間とリソースが限られている研究環境において,顕著な課題となる.本研究の目的は,ドメインに関連するコーパスを効率的に構築する手法を開発することである.この目的のもと,我々は,ドメインサンプリングという手法を提案する.SentencePieceを用いてドメインの専門用語を多く含む語彙モデルを構築し,トークン化の結果に基づいてドメインに関連するコーパスをサンプリングする手法である.本手法を用いてコードに関連するコーパスを構築し,それを事前学習に用いて日本語対応の軽量コードLLMの構築を行なった.本手法で収集したコーパスをコードLLM学習に用いることで,日本語からのコード生成能力が向上したことを報告する.