主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
(1) 目的:製品の欠陥レポートやコールセンターのチャット履歴,会議の議事録といった長い文書から関連情報を取得することは困難な作業である.したがって,文書内の各文の情報タイプを識別する技術は重要である.本研究では,どのような特徴が各文の情報タイプを識別するタスクに置いて有効であるか明らかにすること,本タスクにおいて深層学習のBERTモデルが有効であるかについて取り組んだ.文書コーパスにはTensorFlowやscikit-learnなどのオープンソースソフトウェアプロジェクトにおけるIssue上での議論を用いた. (2) 結果:AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果,文の長さ,ドキュメント内の位置,コメント間の時間といった特徴量が重要だとわかった.最終層のみをファインチューニングした限定的なBERTモデルでは,性能において通常のロジスティック回帰と大きな違いはなかった.