機械学習
パイプラインの作成を支援するために Data Version Control(DVC)と呼ばれるオープンソースソフトウェアが近年利用され ている.DVC は yaml ファイルにより
機械学習
パイプラインを管理する ことができ,
機械学習
パイプラインの作成,管理を効率化できる.DVC を導入することは
機械学習
プロジェクトにおいてメリットがあるが,ま だ新しい技術であるため,最適な導入方法や導入時期などベストプラク ティスは十分に共有されていない.そのため,本研究では,DVC 上での
機械学習
パイプラインの変更過程を明らかにし,DVC を使用しているプ ロジェクトがどのように DVC を導入し活用しているのかについて調査し た.DVC のパイプライン機能を使用し,継続的な開発が行われていると 考えられる
機械学習
関連プロジェクト 25 件の
機械学習
パイプライン 42 件を調査対象とした.調査の結果,現在使用されている
機械学習
パイプラ インは変更が複数回行われたものが 3/4 以上を占めた.また,学習や評 価に属するプロセスの修正が多く,最初に登録した
機械学習
パイプライン のプロセスが現在まで無変更であるものが,変更が行われたプロセスの 1/10 以下であった.さらに,現在使用されている
機械学習
パイプライン はデータ取得,学習,評価のプロセスを含むものが多いことがわかった.
抄録全体を表示