ドクメンテーション研究
Online ISSN : 2189-826X
Print ISSN : 0012-5180
ISSN-L : 0012-5180
コンピュータリーダブルな化学文献データ中の誤りチェック
山田 博山本 毅雄岡部 建次山崎 昶牛丸 守藤原 鎮男
著者情報
解説誌・一般情報誌 フリー

1975 年 25 巻 3 号 p. 95-99

詳細
抄録

われわれは,大量情報の計算機処理の基礎研究として,データベースの作製と利用の研究を行なっている。分析化学会会誌の英文抄録1年分(294編)をオンライン・ディスクファイルデータベースとしたものについて,ファイル中の抄録データのエラーを解析した。このようなエラーは,コンピュータによる自然語検索を行なう際に致命的な影響を及ぼす。抄録文データを使われているすべての単語に分解し,出現回数1の単語(2111種)をリストアップし,これを人間か判読してエラー単語(397語)をひろい,これらについてエラーの発生場所とその分類の解析を行なった。発生場所は「雑誌上ですでに存在していた(オリジナル)」「計算機リーダブルなデータベース作成時(コーディング・パンチ)に生じた」の2か所である。エラーは(1)書きおとし(例.ABSTRCT),(2)書きちがえ(AVSTRACT),(3)書きすぎ(ABSTTRACT),(4)英語のエラーに分類される。(1)のエラーはエラー全体の約53%,(2)は27%,(3)は15%,(4)は5%であった。雑誌作成の際生じるエラーも,これをコンピュータリーダブル化する作業(コーディング・パンチ)の際生じるエラーも上の分類では同じ傾向を示す。しかしアルファベット1文字ずつについてみると,誤り文字の頻度順位は発生場所によりかなり異なる。

著者関連情報
前の記事 次の記事
feedback
Top