Journal of Information Processing and Management
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
CrossCheck plagiarism screening : Experience of the Journal of Epidemiology
Katsumi HASHIMOTO
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2012 Volume 55 Issue 2 Pages 87-96

Details
著者抄録

この20年のWeb基盤技術の進歩により,研究者は研究に必要な文献情報を容易に得ることができるようになった。同時に,研究成果発表のプレッシャーを背負う研究者による科学研究の不正が顕在化している。研究成果を公表する学術ジャーナルでは,重複出版や剽窃・盗用を未然に防ぐ対応が求められ,剽窃検知ツールCrossCheckの利用が広まってきている。日本疫学会はJ-STAGE利用学会として,CrossCheck導入の検討ワークショップに参加した。CrossCheck導入の際に必要となる検討事項やCrossCheck利用の結果と対応案について日本疫学会誌Journal of Epidemiologyの事例を報告する。また,CrossCheckの利用によって明らかになった自己剽窃などの課題についても紹介する。

1. はじめに

STM(Science Technology and Medicine)ジャーナルといわれる理工医学系学術誌の出版形態は,インターネットの浸透とともに1990年代後半から大きく変化した。冊子体のジャーナルは,オンラインジャーナルが主流となったことで検索やアクセスが容易になり,投稿のオンライン化によって新たな問題が生じてきた。剽窃や改ざんなどである。この問題に対応するために,英文のジャーナルではCrossCheckという剽窃検知ツールを導入することで,投稿された論文とすでに出版された論文のテキストを比較して,不正が行われているかどうかを検討する出版者も増えてきた。

筆者は,日本疫学会誌Journal of Epidemiologyの編集を担当しており,J-STAGEでのCrossCheck導入検討にあたり,有志学会によるワークショップに参加して試験運用を行った。2年間の試験運用のデータをまとめた結果をここに報告する。試験運用の段階でも,CrossCheckを利用した結果の判断と対応の方法,問題傾向とその対策など,多くの検討を必要とすることがわかった。CrossCheckを利用した上での判断や対応については,あくまで各ジャーナル個別の検討が必要であるが,われわれの経験を参考にしていただければ幸いである。

2. STMジャーナルの投稿から出版まで

STMジャーナルに掲載される論文の投稿から採択決定までの流れは,どのジャーナルも大きな違いはない。著者が論文をジャーナルに投稿すると,まず編集事務局で論文のスタイル確認および投稿条件を満たしているか否かの確認を行う。確認後,1人の編集委員に論文担当を依頼する。当該論文の判断を委ねられた編集委員は,論文内容を確認後,査読に進めるかどうかを判断する。編集委員が査読に進めると判断した論文は,自ら査読者に査読を依頼する。編集委員が査読なしで不採択と判定する論文が,不採択論文の半数以上になるジャーナルも多い。査読コメントが提出されたら,編集委員が確認して,不採択とならなかった多くの論文において,著者へ査読コメントに従った改訂を求める。著者が改訂した論文を提出すると,初回と同じように再度,編集委員や査読者の判断を受ける。採択が決まった論文は,制作の流れに入る。

制作の流れは,ジャーナルによって多少異なる。できるだけ早くに論文を公開する方針のジャーナルの多くは,オンラインで早期公開をする。早期公開の方法もジャーナルにより大まかに2種類に分かれる。1つは,採択となった論文をそのままオンラインで公開する方法で,早期公開後に校閲,校正刷りを確認して,頁番号のついた最終原稿をオンラインや冊子で出版する。もう1つは,採択決定後,先に校閲,校正刷りを確認してから,冊子版の原稿に近い形で頁番号のない原稿をオンラインで早期公開し,後に頁番号付きの最終版を発行する方法である。頁番号の付いていない早期公開の論文も,DOI(Digital Object Identifier)という識別子をつけることができ,正式な出版物として認められている。

インターネットに溢れている情報やオンラインジャーナルの増加によって容易となった投稿論文の不正対策のために,編集過程での不正論文対応も必要となってきている。後に述べるが,剽窃を検知するために,投稿論文の受付時,初回査読結果の送信前,あるいは採択時などに剽窃検知ツールを使って不正が行われている可能性がないか確認するジャーナルも増えてきている。

3. 投稿論文における問題と対策

3.1 論文投稿における不正行為

科学論文は,困難な研究過程について執筆しなければならないと同時に,明瞭さ,簡潔さ,正確さ,誠実さが要求される。しかしながら研究者の業績評価に必須となる論文のジャーナル掲載へのプレッシャーは,不正行為の増加の原因となっている1),2)。インターネットを通じたこの20年のオンライン情報の増加により,オンライン検索とデジタル化情報の転用が容易になったことも不正行為の増大に大きく影響している3),4)。科学研究における不正行為には,捏造,改ざん,非倫理的研究があり,論文出版において問題となる不正行為には剽窃,著者・共著者の不正使用,重複出版,利益相反の無申告などがある。本稿はCrossCheckの機能で発見される可能性がある剽窃についての問題と対策について述べる5)。剽窃とは,人の文章,アイデアやデータ,研究成果などを盗み,適切な引用なく自分の考えとして発表する行為である。自分の発表から再利用する自己剽窃や,複数の出版物から部分的に切り貼りをするパッチワーク剽窃と呼ばれる盗用も剽窃に含まれる。

3.2 剽窃検知ツールCrossCheckとその仕組み

冒頭で述べたように,学術ジャーナル出版においてはCrossCheckが利用され始め,剽窃を見つけ出すためのテキストパターンマッチングによる不正検出が行われている。

CrossCheckは,CrossRefが提供するiThenticateシステムを利用したサービスである。CrossRefは,出版社が協力して引用文献相互リンキングを提供する組織として1999年に発足した。 iThenticateは,学生のレポートの不正検出ツールTurnitinを開発した米国iParadigms社のシステムである。CrossCheckは,対象原稿のテキストがデータベースに含まれる文書のテキストとどれだけ一致しているかの類似率を検出して,レポートを表示することができる。このツールによって,従来査読者や編集委員の記憶に頼って発見されてきた二重投稿や剽窃の可能性をより容易に出版前に発見,ないしは予防することが可能となる。通常,投稿を受け付けた出版者および編集者がこのツールを使用する。CrossCheckのデータベースには,CrossRefに登録された全コンテンツの半数を超えるジャーナルや本などの出版物の全文や,PubMedを含むWebページの最新版およびアーカイブ,商用データベースのコンテンツ,Web上のリソースなどが含まれている4),6)。CrossCheckはテキストパターンマッチングサービスであり,比較対照が可能な原稿は主に英語論文である。日本語の論文をチェックすること自体は可能であるが,CrossCheckデータベース内の全文コンテンツに日本語があまり含まれていないために効率よく比較ができない。また,図表と本文,図表同士の比較はできない。

CrossCheckには2種類の類似率がある。1つは全体のテキスト類似率であり,テキストが一致した文献の一致率の合計である。CrossCheckをかける論文原稿が,既出版物のテキストとどれくらい一致しているかを示す。もう1つは,1文献ごとの類似率で,論文の詳細を見ると,最も高い類似率の文献から順に表示される(図12)。CrossCheckにより類似率が表示されても,単純にその数字のみから剽窃であるとの判断はできない。類似率が高く出た場合は詳細を見て,編集委員,編集担当者が剽窃か否かを判断する必要がある。

図1 CrossCheckログイン後のトップ画面
図2 1論文の詳細画面

CrossCheckを利用するには,まずCrossRefの会員である必要がある。また利用料金は,CrossRefの年会費とCrossCheckの会費(CrossRefの年会費の20%)に加えて,CrossCheckをかける1論文につき75セントがかかる4)。CrossCheckを導入したジャーナルの論文はCrossCheckデータベースに追加され,デポジット済みであることを示すロゴ「CrossCheck Deposited」をジャーナルのWebサイトで使用することができる。このロゴを表示することにより,投稿前の剽窃抑止に結び付く可能性もある。

3.3 CrossCheckの使い方

スクリーニングしたい原稿をiThenticateのサイトにアップロードすると,内部のデータベースやWeb上のリソースと照合され,同一の分節が検出される。判定結果は,類似率として示される。iThenticateのトップ画面で,アップロードしたファイルの一覧を確認できる(図1)。類似率が40%を超えると類似率の部分がオレンジにハイライトされる。類似率をクリックすると,その論文の詳細を確認することができる(図12)。

画面左がアップロードした文書,画面右は類似した論文の一覧で,一致率の高い文献から順にリストされている。画面右の文献の番号をクリックすると,アップロードした文書と一致した部分を画面左に表示させることができる。番号をクリックするたびに次々と一致部分が表示される(図3)。画面左の番号をクリックすると,類似する文献のフルテキストを画面右に表示するオプションもある(図4)。

図3 文献と一致した投稿論文のテキスト部分の表示
図4 投稿論文のテキストと一致した文献のフルテキスト表示(オプション)

どの部分がどれくらい一致しているのか,一致している部分は引用に該当するのかなどの詳細を確認することで,剽窃であるか否かを編集者が判断する。オンライン投稿・査読システムのEditorial ManagerやScholarOne Manuscriptsを利用している場合は,iThenticateにログインしてファイルをアップロードすることなく,投稿査読システムから直接,より簡便にCrossCheckの結果を得ることができる。

4. Journal of Epidemiologyにおける導入例

4.1 Journal of Epidemiology(JE)について

JEは日本疫学会の論文誌である。隔月発行の英文誌で,年間70から80論文を掲載している。日本疫学会には約1,500名の会員がおり,JEには年間170から200論文の投稿がある。投稿の内訳は,海外からが約60%,国内からは約40%で,採択率は,35%から40%である。J-STAGE上でオンラインオープンアクセスジャーナルとして公開している。2010年のインパクトファクターは,2.11である。

4.2 CrossCheckを利用しての対応方法と結果

J-STAGEでのCrossCheck導入検討にあたり,有志の4学会(日本化学会,日本薬学会,日本内科学会,日本疫学会)が2010年のワークショップに参加した。JEでは,2010年と2011年に受け付けた論文にCrossCheckをかけ,結果を分析した。2010年は採択となった64論文に,2011年は初回投稿の判定が出た時点で改訂が必要と判断された77論文にCrossCheckをかけた(図5)。

図5 CrossCheckをかけた論文の全体の類似率分布

CrossCheckをかけるタイミングを変更した理由については4.3の検討事項に記述する。全体のテキスト類似率が30%を超えた論文は,すべて詳細を確認している。CrossCheckのWebサイトにあったガイドを参照して30%を閾値(いきち)とした。類似率が30%を超えた論文は,2010年が10論文,2011年が22論文であった。また,全体の類似率が20%台でも1文献からの一致率が15%を超える論文については詳細を確認することにしたが,分析が必要な論文はなかった。全体の類似率が30%以上であっても,Methods(方法,実験項)のように,誰が書いてもあまり表現が変わらない部分の自己引用は,参考文献に記載してあれば,一見してパラグラフごとのコピーペーストでない限りは基本的には問題なしとした。明らかにパラグラフごとコピーペーストをしている論文は,担当編集委員,編集委員長がCrossCheckの結果を確認した。その結果,修正が必要と判断した論文の著者には,著作権の問題が起きる可能性があることを説明し,文章を変更して改訂版を提出するように依頼している。類似率が30%を超える論文のうち,約25%から30%の論文の著者に文章の修正を依頼しているが,いままでのところ特に抗議はない。改訂版提出後,再度CrossCheckをかけ,担当編集委員が結果を再確認する。多くの論文で,類似率は高いままであるが,パラグラフごとのコピーペーストはなくなっているので,それ以上の対応はせずに採択としている。2010年,2011年ともに,全体の類似率の分布に大きな差はなく(図5),全体の類似率30%以下の論文がCrossCheckをかけた論文の70%を超える。類似率30%を超える論文もMethodsの自己引用が大半であったが,引用の記載がない場合も少数ではあるが見受けられた。引用の記載がない場合も,改訂版投稿時に参考文献に記載するよう著者にコメントをしている。2011年の全体のテキスト類似率が30%以上の22論文について1文献との最高類似率を見ると,64%の論文で最高類似率は10%以下である。1文献との一致率が20%を超える論文は4論文あった(図6)。

図6 CrossCheckをかけた論文の一文献との最高類似率分布(2011年)

2011年の全体のテキスト類似率30%以上の論文数の国別分布を見る限り,投稿論文数の国別分布と比較して,突出して多く問題となる国はないことがわかった(図7)。Review Articleは類似率が高くなる傾向にある。

図7 全体のテキスト類似率30%以上の論文数国別分布(2011年)

2年間のCrossCheckの結果により剽窃の疑いが強く,不採択となった論文はスペインから投稿された1論文である。この論文の全体の類似率は37%,1文献との最高類似率は30%であった。一致部分は,Methodsのみならず,Resultにも見られた。引用の記載もなく,編集委員から事情を説明するように著者に連絡を取ったが返事がなかったため,不採択とした。2年分の分析結果から,30%という閾値は弊誌では妥当であると考える。

CrossCheckを使用した他誌の結果状況を調べてみると,Natureで出版しているジャーナルの1誌は,採択となった論文を剽窃チェックして23%が不採択となった。またTaylor and Francis社では,3誌で6か月間,投稿時にCrossCheckをかけた結果,1誌が10%,1誌が6%,もう1誌が23%の論文を剽窃の疑いにより不採択とした7)。The Academy of Management誌では,採択になった論文の13~15%に重大な剽窃が見つかっている1)

4.3 CrossCheck導入にあたっての検討事項

2年間の経験から,CrossCheck導入にあたって慎重な検討が必要となる項目を紹介したい。まずCrossCheckをいつ,どの論文にかけるか,そして閾値をどこに設定して,閾値を超えた場合はどのような対応をとるかである。タイミングについては,3種類が考えられる。投稿を受け付けた論文全部にかけるのか,初回投稿で改訂が必要となった論文および初回で採択となった論文にかけるのか,改訂後,採択が決まった論文にかけるのかの選択肢である。投稿受付論文すべてにかけるのであれば当然投稿受付時にかけることになるが,料金,仕事量ともにかなりの負担となる。初回投稿でdecision letterを送信する際にかける場合は,フローを慎重に検討する必要がある。JEでは当初,採択が決定し,採択通知を出す直前にCrossCheckをかけていたが,ある論文で問題が起こった。Methodsの自己引用により高い類似率となっていたため,著者に修正を依頼したところ,最初の改訂時に伝えていない修正依頼を新たに編集委員会が行ったことに対して著者から大変厳しい抗議があったのである。この件について,編集委員会で検討した結果,編集委員会の対応に問題があったことを認め,以降,初回投稿論文の結果が改訂要となった論文と初回投稿で採択となった論文にCrossCheckをかけ,著者に修正等を依頼することとしている。

また閾値を決定し,それを超えた場合はどのような対応をとるのかもある程度検討しておくと混乱が少ない。この件については,正式導入前にある程度検討する必要があるが,導入開始後,CrossCheck結果の傾向を確認しつつ,柔軟に変更できるようにしておくとよい。さらに,投稿規定にCrossCheck導入に関わるポリシーを記載するなど,著者へのアナウンスも必要と考えられる5)

4.4 検討課題

JEでは,当初,CrossCheckは重複出版を発見するツールとして使い始めたが,2年間の分析結果から大きく4種類の課題が存在した。まず,最大の課題は自己剽窃であった。自己剽窃とは,自分が過去に発表した論文の一部を参考文献に記載せず新規論文に再利用することである。類似率が高い論文の大半は,著者自身あるいは同じ研究グループが過去に出版した論文からMethodsをコピーしたものである。CrossCheckを使い始めた当初は予想していなかった問題である。著者が過去に発表した自分の論文から引用することについては,剽窃と考えないことも多い。現在,出版倫理委員会(Committee on Publication Ethics: COPE)等で自己剽窃についてのガイドラインはまだ発表されていないが,Methods部分の自己引用については,引用の記載がしてあれば,自己剽窃としないという意見が多い。ResultやDiscussion部分での自己引用については,自己剽窃を疑う必要がある8),9)

次の課題は,パッチワーク剽窃である。英文ジャーナルには英語を母国語としない外国人からの投稿もかなり多いが,英語表現の限界から,パッチワークと呼ばれる,複数の文献からの表現の切り貼りが見られ,問題となっている9)。どの程度の切り貼りを剽窃と見なすのか,編集サイドで検討しておく必要がある。

3番目に紹介する課題は,最近深刻な問題になりつつある図表の剽窃である。現状ではCrossCheckで図表について他の論文との比較はできないが,CrossCheck利用により剽窃を意識することで,JEでも問題が顕在化してきた。図表については,ジャーナル一般において問題が深刻化してきているため,早急に対応が必要となるのではないか。剽窃を回避するために現在JEでは,投稿時に著者に著作権のある図表が含まれているかどうかを確認し,含まれている場合は許諾の提出を要求しており,また出典が明記されているかどうか確認している。ただし,著者からの自己申告となるため,故意にすでに出版されている図表を使おうとした場合には,編集側が検知することは困難である10)。著者の中には,許諾を取ることについての知識を持っていない人も多いので,著者への説明などの対応が必要と考えられる。

最後の課題であるが,CrossCheckを導入すると,編集室と編集委員の時間的負担はかなり増加する。編集事務局,編集委員の負担を減らすためにも,CrossCheckが浸透してきたならば,投稿前に著者自身が自分でCrossCheckをかける選択肢などを取り入れる可能性も出てくるのではないか。現在も著者自身が投稿前にiThenticateでCrossCheckをかけることはできるが,1論文につき50ドルと高額である。今後は,研究機関や大学などで契約をすることにより,著者が投稿前に手軽にCrossCheckをかけることが,剽窃を未然に防ぐ1つの方法となるかもしれない。実際,米国研究公正局(Office of Research Integrity: ORI)での取り締まりにより剽窃の責任を取らされた著者の所属機関のなかには,すでにこのツールを使えるようにしている機関もある11),12)。ただ,CrossCheckでスクリーニングできるのはテキストだけであり,当然,剽窃の対象となりうる図表やアイデアの盗用まではこのツールでは検知できない。

5. 剽窃判断時の対応方法

CrossCheckを導入して剽窃と判断した場合,編集者の対応方法について参考にできる剽窃対応指針がある。COPE(http://publicationethics.org/)にはフローチャートが用意されているので,参考にすることをお勧めする。ただし,フローチャートは役には立つが,剽窃対応は最終的には個別の事情に応じて慎重に認定と処罰を含む対応を行うものである。また,ORIは,科学における不正行為が行われていないかどうかを監視する機関であり,ORIも剽窃の定義や,研究不正対応指針を発表しており,参考になる。ORIでは,研究不正における剽窃については,今までは比較的厳しい処分はなかったが,2011年からは,取り締まりを強化しているようである。数件の著者が責任を取らされている12)

6. おわりに

以上,情報のオンライン化に伴って増加している論文出版における剽窃について,現状と日本疫学会誌JEでの事例を報告した。間もなくJ-STAGEの収録ジャーナルはCrossCheckの正式導入が可能となるが,上述のようにCrossCheck導入により編集者は剽窃検知の方法や対応について多くを検討する必要がある。また,導入結果により,自己剽窃のように現在国際的な指針のない問題に対応することになる。早急な国際的指針の策定が望まれる。また,今回の取り組みはテキストパターンマッチング技術を利用した一例に過ぎず,図表のように,検知も非常に困難な剽窃について対策が望まれる。この20年の変化で明らかなように,ジャーナル出版は,進化に伴い,常に新たな課題が出現する。出版者や編集者は常に情報を集め,最新の状況を把握する必要があろう。

謝辞

本原稿執筆にあたっては,日本化学会 林和弘氏,科学技術振興機構 久保田壮一氏,土屋江里氏に有益なコメントをいただいた。ここに深謝の意を表する。また,Journal of Epidemiology編集委員会の協力のもとに,導入結果および対応をまとめることができた。ここに感謝の意を表する。

参考文献
 
© Japan Science and Technology Agency 2012
feedback
Top