OSSプロジェクトのIssue議論内容に対するBERTおよびAutoMLを用いた文章分類の提案

山田 侑樹; 櫨山 淳雄; 小川 雄太郎

doi:10.11517/pjsai.JSAI2020.0_3Rin408

抄録

(1) 目的：製品の欠陥レポートやコールセンターのチャット履歴，会議の議事録といった長い文書から関連情報を取得することは困難な作業である．したがって，文書内の各文の情報タイプを識別する技術は重要である．本研究では，どのような特徴が各文の情報タイプを識別するタスクに置いて有効であるか明らかにすること，本タスクにおいて深層学習のBERTモデルが有効であるかについて取り組んだ．文書コーパスにはTensorFlowやscikit-learnなどのオープンソースソフトウェアプロジェクトにおけるIssue上での議論を用いた． (2) 結果：AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果，文の長さ，ドキュメント内の位置，コメント間の時間といった特徴量が重要だとわかった．最終層のみをファインチューニングした限定的なBERTモデルでは，性能において通常のロジスティック回帰と大きな違いはなかった．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）