静かなる改竄 ― AIはいかにしてデータの裏付けを超えた主張を生み出すのか
2025年11月26日、執筆者:Guy Harris
AIが科学論文の執筆にもたらす問題のなかで、最も危険なのは、研究者自身が気づきにくい問題ではないでしょうか。
Royal Society Open Science 誌に発表されたある研究では、AI生成による研究論文の要約と、人間が執筆した同一論文の要約を比較しました。その結果は衝撃的なものでした。AI生成の要約は、元の研究の結論を過度に一般化する(overgeneralize:過剰一般化)傾向が4.85倍高いことが判明したのです。
何と、約5倍です。これは文法の問題ではありません。書式の問題でもありません。科学的誠実性(scientific integrity)に関わる問題であり、しかも通常の確認では検出されにくい水面下で作用する問題なのです。
具体的にどのように起こるかを見てみましょう。研究者が結果(Results)セクションにこう書いたとします。
"Treatment A was associated with a reduction in symptom severity in the study population (p = 0.03)."
(Treatment Aは、本研究集団において症状の重症度の低下と関連していた(p = 0.03)。)
これは慎重で、適切にヘッジング(hedging:断定を避ける表現)が施された記述です。データが支持する範囲のことだけを述べ、それ以上のことは示唆していません。
この研究者が次に、考察(Discussion)セクションを「改善」するようChatGPTに依頼したとします。AIはこう生成します。
"Treatment A significantly reduces symptom severity, demonstrating its clinical efficacy."
(Treatment Aは症状の重症度を有意に低下させ、その臨床的有効性を実証している。)
この文は読みやすく、権威ある響きを持っています。しかし、内容的には元の記述とは質的に異なる主張になってしまっているのです。"Was associated with"(関連していた)が "reduces"(低下させる)に変わっています。"In the study population"(本研究集団において)が消え、一般化可能性(generalizability)を暗示する文になっています。"Demonstrating its clinical efficacy"(臨床的有効性を実証している)という結論は、おそらくその研究デザインでは支持できないものです。
これが Royal Society の研究で overgeneralization(過剰一般化)と呼ばれている現象です。大規模言語モデル(LLM:Large Language Models)は、有用で明確な回答を生成するよう訓練されています。その結果、厳密な科学論文の要であるヘッジング、限定条件の付与、主張の範囲の慎重な制限といった要素が、自信に満ちた断定的な文章へと体系的に置き換えられてしまうのです。
英語を母語としない研究者にとって、この罠は特に巧妙です。AIが推敲した文章は、著者のオリジナルよりも本当にプロフェッショナルに聞こえますし、ネイティブスピーカーが書きそうな文章に見えます。著者の直感が「"associated with" が正しい表現だ」と正しく判断していたとしても、AIの見かけ上の言語的権威に譲ってしまうことが少なくないのです。
その後に何が起こるかは予測可能です。査読者が考察セクションを読み、こう指摘します。
"The authors' claims exceed what the data can support."
(著者の主張はデータが支持しうる範囲を超えている。)
あるいは、
"The interpretation is overly broad given the study design."
(研究デザインを考慮すると、解釈が過度に広範である。)
あるいは単に、
"Major revision required."
(大幅な修正が必要。)
著者は困惑します。英語を改善しようとしただけなのに、実際には科学的内容を損なってしまっていたのです。
解決策は、AIの使用をやめることではありません。AIが主張に対して何をするかを理解し、それに応じて出力を確認することです。AIが科学的記述を言い換えるたびに、以下の3点を確認する必要があります。
1. 因果関係(causality)の方向が変わっていないか。 "Associated with"(関連している)は "causes"(引き起こす)と同義ではありません。"Correlated"(相関がある)は "predicts"(予測する)と同義ではありません。
2. 主張の範囲(scope)が拡大していないか。 ある病院の47名の患者における所見は、「患者一般」に関する所見ではありません。
3. ヘッジング表現が削除されていないか。 "May"(〜かもしれない)、"might"(〜の可能性がある)、"appears to"(〜と思われる)、"suggests"(〜を示唆する)――これらの語には存在理由があります。消えていたら、元に戻さなければなりません。
AIは科学論文の可読性(readability)を向上させる強力なツールです。しかし同時に、注意深く監視しなければ、科学的主張の過大評価(overclaiming)を静かに推し進めるエンジンでもあるのです。論文が受理されるか、主張の過大さを理由にデスクリジェクト(desk rejection:編集段階での即時却下)されるか――その差は、たった一つの限定表現(qualifier)の有無にかかっていることがあります。