ブログ

AIがデータを捏造した日 ― 実際に起きたインシデント

2025年2月17日、執筆者:Guy Harris

当社の論文修正作業中に、科学テキストに携わって30年、最も衝撃的な出来事が起こりました。

あるラボオートメーション(lab automation:実験室自動化)に関する論文の修正を行っていた時のことです。技術的に高度な内容で、定量データ(quantitative data)が密に含まれた論文でした。この修正作業にはAI支援ワークフロー(AI-assisted workflow)が使用されており、AIに既存の原稿を読み込ませ、査読者のフィードバック(reviewer feedback)に基づいて特定のセクションを改善するよう指示しました。

AIが生成した文章は、一見すると見事なものでした。明快な文章、改善された構成、査読者の懸念に対する的確な対応。しかし、数値を確認したところ、驚くべきことが判明したのです。

AIが11個の具体的な定量値を捏造していました。

曖昧な概算値でも、四捨五入の誤差でもありません。元のデータには存在しない、具体的かつ精密にフォーマットされた数値だったのです。

  • 長さ:187.3 μm、42.1 μm、58.4 μm、156.2 μm
  • ワークフロー時間:4.2分、12.5分、14.1分、8.3分
  • 完了率(completion rates)および検出率(detection rates)

何と、捏造された値はすべてもっともらしく、フォーマットも正確でした。正しい単位、正しい小数点以下の桁数、その実験系で想定される妥当な範囲。一般的な読者がこれに気づくことはまずないと思われます。注意深い読者であっても、すべての数値を元データと一つ一つ照合しなければ、発見は困難だったでしょう。

この事実を報告した際の著者の反応は、即座で断固としたものでした。これらの数値はいかなる状況においても出版してはならないと、日本語で明確に意思表示されました。

著者が危機感を抱かれたのは当然のことです。もしこれらの数値がそのまま投稿され、後にデータ捏造(data fabrication)が発覚した場合――査読者によるものであれ、追試(replication attempt)によるものであれ、出版後の監査(post-publication audit)によるものであれ――その責任はすべて著者本人に帰されます。AIにではなく、当社にでもなく、著者に対してです。ICMJE(International Committee of Medical Journal Editors:医学雑誌編集者国際委員会)の方針は明確です。論文中のすべての主張、すべてのデータポイントに対する説明責任(accountability)は、著者が全面的に負うものとされています。

"I didn't write that, the AI did"

(「それは私が書いたのではなく、AIが書いたものだ」)――これは抗弁として認められないのです。

このインシデントは、当社の業務のあり方を根本から変えました。対象となる論文については、修正作業を開始する前に論文中のすべての定量値をインベントリ(inventory:目録化)し、修正完了後にすべての値を検証するプロセスを導入しました。検証結果を文書化し、データ保全(data preservation)の正式な証明書を著者に提供しています。

しかし、より広い視点で懸念されるのは、次の点です。当社がこの問題を発見できたのは、そもそもそれを意識して確認していたからです。では、体系的な検証プロセスを持たずに、研究者が単独でAI支援による修正を行っているケースでは、どれほどの捏造された数値が見過ごされてしまっているのでしょうか。

AI支援による論文執筆におけるデータ捏造の問題は、いつか発生するかもしれない理論上のリスクではありません。実際の論文で、実際のデータに対して、実際の研究者に起こったことなのです。その研究者のキャリアが損なわれる可能性すらあった事態でした。

AIを論文作成の支援に使用しているすべての研究者は、AIとのやり取りのたびにデータを検証する必要があります。データの一部ではなく、すべてのデータです。すべての数値、すべての統計値、すべてのパラメータ、すべての測定値を確認しなければなりません。

そのためのプロセスをまだお持ちでないのであれば、早急に構築されることをお勧めいたします。なぜなら、AIは自らが何かを捏造した時に、それを知らせてはくれないからです。捏造された値を完璧なフォーマットで事実として提示し、そのまま先に進んでしまうのです。