われわれは,大量情報の計算機処理の基礎研究として,データベースの作製と利用の研究を行なっている。分析化学会会誌の英文抄録1年分(294編)をオンライン・ディスクファイルデータベースとしたものについて,ファイル中の抄録データのエラーを解析した。このようなエラーは,コンピュータによる自然語検索を行なう際に致命的な影響を及ぼす。抄録文データを使われているすべての単語に分解し,出現回数1の単語(2111種)をリストアップし,これを人間か判読してエラー単語(397語)をひろい,これらについてエラーの発生場所とその分類の解析を行なった。発生場所は「雑誌上ですでに存在していた(オリジナル)」「計算機リーダブルなデータベース作成時(コーディング・パンチ)に生じた」の2か所である。エラーは(1)書きおとし(例.ABSTRCT),(2)書きちがえ(AVSTRACT),(3)書きすぎ(ABSTTRACT),(4)英語のエラーに分類される。(1)のエラーはエラー全体の約53%,(2)は27%,(3)は15%,(4)は5%であった。雑誌作成の際生じるエラーも,これをコンピュータリーダブル化する作業(コーディング・パンチ)の際生じるエラーも上の分類では同じ傾向を示す。しかしアルファベット1文字ずつについてみると,誤り文字の頻度順位は発生場所によりかなり異なる。
抄録全体を表示