情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
情報論議 根掘り葉掘り
自動生成論文 虚偽か遊びか? あるいは真実も?
名和 小太郎
著者情報
ジャーナル フリー HTML

2014 年 57 巻 5 号 p. 348-351

詳細

2005年4月,『Nature』は「コンピューター関連学会はゴタマゼの論文を歓迎する」という記事を掲載した。そこには学術論文にかかわる奇怪な話が紹介されていた1)

MITの大学院生 J. ストライブリングは,2人の共著者とともに,第9回世界システミクス・サイバネティクス・インフォマティクス研究集会(WMSCI)に「Rooter: A Methodology for the Typical Unification of Access Point and Redundancy」(原文のまま)という論文を投稿し,受理された。ただし,ピア・レビューはなかった。

問題は,この論文が人によってではなく,コンピューターによって執筆されたことにあった。ストライブリングは,コンピューター科学系の自動論文ジェネレーターを開発し,それでRooter論文を作成したのであった。

彼らは自分たちの試み――できの悪い論文をまねること――を「最大の気晴らし」と言った。だが,その真の狙いはWMSCIの論文受理手順を験すことにあった。

一方,WMSCIはこの点について非を認めていない。IEEEはWMSCIを支援していたが,この事件の後にそれを止めた。

『Nature』の記事はストライブリングの行為を,1996年に生じたソーカル事件――前回本欄に紹介2)――の類の悪ふざけだろうと指摘していた。

ストライブリングの自動論文ジェネレーターであるが,それはコンピューター関連の文章を自動生成し,これにグラフ,ダイアグラム,引用リストをランダムに付けて,学術論文もどきを作成するソフトウェアであった。その出力はコンテクスト・フリーの論文であり,そこには首尾一貫性はなく,「最大の気晴らし」のみがあった。

この自動論文ジェネレーターは‘SCIgen’という呼称で公表された。ストライブリングのWebサイトを見ると,そのプログラム言語はPerl,適用範囲はコンピューター科学分野の英語論文,使用条件はGNU一般公衆ライセンス,その機能はパロディ生成,と紹介されている3)

SCIgenはその後もしばしば利用されている。2008年,H. シュランゲマンが「Towards the Simulation of E-Commerce」(原文のまま)という論文をコンピューター科学・ソフトウェア工学に関する国際会議(CSSE)に提出し受理された。著者のブログは現在も存在し,その全文を読むこともできる4)。一瞥(いちべつ)すると,いかにも学術論文という仕立てになっている。

Google Scholarの出力は「h指数」――論文数と被引用数による評価――によって左右される。2010年,C. ラッベはSCIgenで作成した論文を相互引用させることによって,この指数を高めることができた5)。たとえば,架空の研究者AntkareをEinsteinの前にランクすることができた。

2012年,『Scientometrics』はC. ラッべとD. ラッべによる「科学文献における重複されかつ偽造された出版」という論文を掲載した6)。それは少なくとも85の論文がSCIgenにより作成されIEEEによって出版されている,と報告していた。その後,IEEEと出版社のSpringerは120の論文を削除した。

この現象は他の専門領域に拡大している。現に,「ポストモダニズム・ジェネレーター」なるものもある。その効能書をみると,「ポストモダニズム,ポスト構成主義,脱構築,批判理論などに関する一見学術的でありながら無意味な論文を生成する」とある。iPhone版も日本語版もあるという。

論点はこの型の論文が遊びか偽造かということになる。双方の間に境界線を設けることができるのか。これについて,まだ少数ではあるが,好奇心に富んだ法律家が米国憲法修正1条を参照したらどうかと提案をしている7)9)。大げさの感はあるが,ほかにこれといった手がかりがないので,以下,それを紹介しよう。

修正1条であるが,それは次のようなものである。

「連邦議会は,……言論または出版の自由を制限する法律,……を,制定してはならない」

課題は,ここにいう「言論」(speech)に自動生成論文は相当するのか,という点にある。

修正1条は言論について明確な定義を示していない。法廷が,言論にかかわる訴訟が生じるたびに,その解釈をアドホックに示してきた。ということで,課題はこれまでの判例に自動生成論文を付き合わせることとなる。

ここで雑談。修正1条はわずか45語からなる文章にすぎないが,これを論じた文章は,法学分野に限っても,年間3,000万語は超える。それだけ解釈に幅がある,つまり定説がない,ということだろう(「修正1条」というキーワードをタイトルに含む法学論文は年間3,000編以上出版されている。その語数は1編あたり少なくとも1万語はある)。

本論に入る。論点を確認するための図式を作ろう。まず,一方に送信者が他方に受信者がおり,双方の間に機械――記録媒体,入出力デバイスあるいは伝送路――があるとしよう。次に,ここにメッセージが流れるとしよう。

ここで設問。いかなる条件を満たせばそのメッセージは「言論」となるのか。

  • 【論点1】送信者は人間でなければならないのか。

英語を語るペット――ブラッキーという名のネコ――の発話は言論に相当するのか――こんな訴訟があった(1983年)。法廷は「言論は人によるものでなければならない」という理由を付けて,この訴えを拒んだ。とすれば,ペットと機械とのどちらが人間に近いのか,ということになる。

  • 【論点2】メッセージのもつ意味に何らかの条件が課せられるのか。

2010年に連邦控訴審は次のような意見を示している。

「まず,宗教,政治,科学,教育,報道,歴史,芸術としての価値をもつものは言論になる。これらを欠いても,私たちが互いに話すほとんどのものも言論になる。まったく中立的なもの,無益なものも言論になる。もちろんJ. キーツの詩も J.ダンの説教も」

なぜここにキーツやダンが引き合いに出されるのか,私には不明だが。

ただしポルノグラフィーは言論としての資格を否定されたり(1982年),不問に付せられたり(2011年)している。

また事実に関する偽りの情報は言論にはならないという判例もある(1974年)。Rooter論文は娯楽用と判断されれば言論であり,虚偽と判定されれば言論ではないこととなる。

  • 【論点3】メッセージの記録媒体あるいは伝送路に,何らかの条件は課せられているのか。

その記録媒体としては,音声,文章,画像の記録媒体,さらには言語活動を伴わない行動――例,パントマイム――が含まれる。

映画は1952年になるまで,さらにビデオゲームは2011年になるまで,言論とは認められなかった。

ビデオゲームをよしとした連邦最高裁の多数意見をここで紹介しておこう。

「ビデオゲームは,それに先立つ書籍,演劇,映画――いずれも修正1条で保護される――のように,アイデアを,そして社会的なメッセージさえ伝達することができる。それは,多くの慣れ親しんだ道具(たとえば,文字,対話,プロット,そして音楽)によって,また,このメディアに固有の特徴(プレーヤーの仮想世界との対話)によって,実現する。ビデオゲームは修正1条に十分値するものである」

ビデオゲームがよしとなれば,その結論を論文自動生成ソフトウェアに拡げることも,近未来には可能となるだろう。

  • 【論点4】送信者のメッセージに対する何らかの行為が必要か。

出版物や新聞の記事は言論である。いずれも,送信者がメッセージの公表にあたり,コンシェルジュとしての役割――選択,編集など――を果たすからである。放送番組についても同じである。

コンシェルジュ機能が言論を創るのであれば,検索エンジンの出力も言論になるだろう。Googleはその検索エンジンを核として,Google Map,Street View,Google Scholar,Google Analyticsとサービスの対象を拡げている。いずれもコンシェルジュの役割を担っている。Googleは訴訟においても,その検索エンジンの出力――ページランク――を言論であると主張している。それはGoogle固有の表現であるというのである10)

Amazonはユーザーの興味に合わせて新しい書物を推薦してくれる。さらに,Facebookはユーザーの関心に応じて広告を送りつけてくる。

一方,電話網の送信者は,コンシェルジュ機能をもたず,したがって伝達されるメッセージは言論ではない。つけくわえれば,この論点は黙示的に受信者が公衆――複数――であるという理解を含んでいる。

Twitterはどうか。それは誰かのつぶやきを増幅し,多数者にリレーしつつ伝達する。「つぶやき」に注目すれば非言論的,「多数者へのリレー」に注目すれば言論的,その位置づけは微妙だろう。

  • 【論点5】メッセージが機械の出力である場合,それは言論になるのか。

極端な例を考えてみよう。サーモスタットが空調機に送る「オン」「オフ」のシグナルを言論と言う人はいないだろう。一方,タイプライターが出力する散文を言論ではないと言う人もいないだろう。双方の中間に言論を定義する線を引くことができるはずである。だが,その線を見つけることができるかどうか。

ここでSCIgenであるが,それはタイプライターの中に人間の知能を移したものとみることもできる。とすれば,その出力を言論とみなしてもよいだろう。検索エンジンの出力についても同じか。

ここでRooter論文に戻ろう。上記の論点に即していえば,第1に,それが「最大の気晴らし」として発表されたこと,第2に,それが公衆に伝達されたこと,第3に,それはコンシェルジュ以上の機能をもつ機械の出力であること――この3点で言論とみなせる(かもしれない)。Rooter論文つまり,SCIgenの出力は正当化できる(かもしれない)。

以上,あれこれと言論の再定義を試みたが,これといった結論はみえてこない。にもかかわらず,「機械言論」(machine speech),「アルゴリズム言論」(algorithm based speech),あるいは「言論エンジン」(speech engine)などといった言葉は生まれている。

現実はさらに進んでいる。自動論文ジェネレーターは自動文章ジェネレーターへと成長した。それは虚偽というより娯楽の文章を出力する。

2008年,ロシアのAstrelはL. トルストイの『アンナ・カレーニナ』を村上春樹の文体(ロシア語訳)でリライトした小説『真の愛』を出版したという11)。そのプログラムの開発には情報技術者と言語専門家とのチームが8か月をかけたが,そのプログラムは72時間で『真の愛』を完成させた。

編集者A. プロコポビッチは「われわれのプログラムはこの作業に役だったが,そのプログラムは決して書き手になることはできない。Photoshopがラファエロにならないように」と言っている。

2012年,NarrativeScienceのWebログが評判になった12)。それは「報道の破壊者NarrativeScience」というタイトルのもとで,「アルゴリズムによる執筆記事はジャーナリストが未来で活動するために重要な役割をもつ」と示していた。このプログラムQuill EngineはGoogle Analyticsが収集したデータ群を自然言語――平易な英語――に変換するものであった。つまり,自動文章ジェネレーターは虚偽ではなく事実に関する文章を出力するようにもなった。

すでに,『Forbes』は著者名(about us)をNarrativeScienceとする記事をそのまま掲載している。NarrativeScienceは,Quill Engineの適用範囲として,金融,保険,行政,スポーツ,マーケティングをあげている。

話は捩(よ)じれるが,最後にもうひと言。ふたたび『真の愛』の編集者A. プロコポビッチに登場してもらおう。彼は断言している。「作家に対する出版社の役割は変わるだろう」と。彼は,作家は不必要になる,と言っているかにみえる。だが,不要になるのは出版社かもしれない。

ここにNarrativeScienceの成果を結びつけると,やがては専門家の,くわえて知識人の,大失業時代がくるかもしれない。修正1条は些事になるだろう。

参考文献
 
© 2014 Japan Science and Technology Agency
feedback
Top