マーケティングでは,対象者の集合を,クラスタリングで分割し,出来た小規模部分集合で分析する場合がある。この場合,クラスタリングされた部分集合が,どのような集合であるかは人手で利用者属性を分析していた。書籍の内容に基づく推薦では,大規模文書集合をクラスタリングで小さい規模に分割して処理したい。クラスタリング出力後の部分文書集合の属性や意味は人間が読めば理解できる。しかし文書数が多くなると人間による分析は困難であるため,機械的な属性・意味推定が欲しい。本研究では意味的に分割されたラベル付き文書集合を対象に,部分集合内の文書が含む単語から集合のラベル推定する手法を検討する。本研究で提案する手法は3段階から成る。大規模コーパスにFasttextを適用し,各単語の分散表現を得ておく。次に,SVM判別器で重要語を抽出する。ある文書集合と他を区別するSVM分類器を作成しSVMの重みが大きな単語を重要語する。最後に,ある文書集合の重要語と,分散表現の類似度が近い単語を,その集合のラベル候補とする。実験として,分類問題に用いられるラベル付き文書集合である20newsgroupに適用した。また日本語文書としてライブドアニュースコーパスにも適用した。本論文では,提案手法と,実験の結果を報告する。
RDFグラフはリソース間の関係によって結ばれたグラフデータであり,LOD(Linked Open Data)としてWeb上に公開されている.このRDFグラフから抽出した特徴を用いてSVM(Support Vector Machine)などの機械学習が盛んに研究されている.本研究では,RDFグラフから各リソースの特徴ベクトルを抽出する方法を提案し,様々な特徴ベクトルを深層ニューラルネットワークへ適用する.評価実験では,いくつかのRDFデータを用いたリソースのクラス分類において高い正解率を示す.
職業現場は様々な業務で構成されており、それぞれの業務には異なる能力やスキルが必要とされる。業務に必要な要素を明確にすれば就業者の特徴に適合する業務の検索が容易となり、社会における生産性の向上にも繋がる。しかし、こういった職業に関する情報がなく、採用関係者の経験による独自の判断で行われている。そこで、本研究では厚生労働省が発行している職業能力に関する評価基準を用いて職業情報を抽出し、データ化する。また、そのデータを分析し、意味的要素を発見することで職業における知識体系の構築への可能性を検討する。