実運用ツール軌跡を用いた言語モデル学習データ作成方法 (main author)

Abstract

近年,コード生成・デバッグなどの複雑なソフトウェア開発タスクにおいて,言語モデルが外部ツールを段階的に使用する能力が求められている.そこで,実際のツール使用履歴(ツール軌跡)に基づく学習を通じて,特にLLMが習熟していない新しいツールの使い方を学習させることで,ソフトウェア開発における言語モデルの行動予測精度およびタスク達成能力を向上させることが求められる.実運用の場合,LLMに行動変容を促すプロンプトを確率的・一時的に挿入してA/Bテストを行うことで,ツール軌跡を大量に集めた後に,A/Bテストで肯定的な結果が出た時には行動変容促進プロンプト付で生成されたツール軌跡を学習に使うことが考えられるが,行動変容促進プロンプト付で生成されたツール軌跡は,行動変容促進プロンプト自体を削除したとしても,行動変容促進プロンプトに言及する中間思考が履歴中に存在する可能性があり,そのまま学習データとして使用するとハルシネーションの原因となりうる.本研究では,A/Bテストで収集した行動変容促進プロンプト付きのツール軌跡に対し,中間思考から行動変容促進プロンプトに関する言及を削除することで,高品質な学習用ツール軌跡を収集する手法を提案する.

Publication
In 第267回NL研究発表会

xxx

MIYAZAKI Keisuke
MIYAZAKI Keisuke
Corporate researcher

Corporate researcher in Fujitsu Limited. Interested in NLP.