2018 年 2018 巻 AM-19 号 p. 04-
データ分析によって構築する予測モデルを実務上で使う場合には、精度だけでなく頑健性と説明性も求められる.そのためには分析データは定義が明らかで充足 率も高く予測対象との関連も明瞭でなければならない.しかし実際のデータは分散されて存在することが多く,データも多様で適切なデータが見つからない場合 が多い.分散されたデータの定義を確認しながら分析用のデータを統合することは前処理といって全工程の7割を占めるといわれている.一方最近の主要なデータ 分析言語のRやPythonは数理モデル構築には適しているが,煩雑な前処理を行うには記述が難しすぎる.本論ではコマンドモードとビジュアルな環境を提供した実用的なデータ分析ツールPadocを提案する.提案ツールは前処理ではPythonに比べて記述が容易であることを示し,ビジュアルな環境は仮説検証や知識発見についても十分な性能を提供している事を示す.