抄録
一般に統計表は,利用者のニーズを広く満たすために,個々の利用者が必要とする以上の分類項目で分類されている.そのフォーマットは,複数の分類項目でクロス集計された形である.分類項目は表の縦軸と横軸に分けられているが,その分け方は統一されていない.さらには階層構造になった分類項目が存在する.このため,公刊された膨大な統計表から必要とする分類項目だけで分類した統計量を得ることは容易ではない.本論文では,分類方法が非統一で階層構造の分類項目を持つ統計表を記述する新しい記法を提案する.本手法は,Wangの記法を採用し,統計表の属性から統計量までのパスをXMLで記述する.本記法の有効性を検証するために,モデル化した統計表および日本の厚生労働省が公開している医療統計表を使った抽出実験により,データの抽出が容易に行えることを示す.また,統計表のフォーマットを自動で提案記法に変換し,変換した統計データから対話形式で抽出を行うシステムを開発する.