ブログ

「形だけは立派なゴミ」― AIによる科学論文執筆の本当の問題点

2024年9月6日、執筆者:Guy Harris

Nature誌が最近、研究におけるAI(Artificial Intelligence:人工知能)の活用に関する調査結果を発表しました。LLM(Large Language Models:大規模言語モデル)が学術出版に与える影響について尋ねたところ、ある回答者が非常に印象的な言葉を残しています。

"Well-formulated crap."

(「形だけは立派なゴミ」)

この回答者によれば、十分な人間の監視なしにAIを科学論文の執筆に使用した場合、出来上がるのはまさにこれだというのです。文法的には完璧で、文体も適切、しかし科学的には信頼できない文章です。

この言葉は、AIと科学をめぐる現在の議論が見落としている本質を的確に捉えていると思われます。これまでの議論は、言語の問題として組み立てられてきました。つまり、「AIは良い英語を書けるか?」という問いです。しかし、本当の問題は論理(logic)の問題ではないでしょうか。「AIは正しい科学を生み出せるか?」――これこそが問われるべき問いなのです。

現時点での答えは、残念ながら「ノー」と言わざるを得ません。

当社Dmedは1995年以来、日本のバイオメディカル分野の研究者の論文を校正してまいりました。その長い歴史の中で、課題は常に明確でした。お客様は優れた科学的知見をお持ちでありながら、英語表現に課題を抱えていらっしゃいました。英文校正(English editing)という職業は、まさにこのギャップを埋めるために存在していたのです。文法を修正し、表現を洗練させ、投稿先ジャーナルのスタイル要件(style requirements)を満たす。科学的内容そのものは、著者の責任でした。

AIはこの構図を逆転させてしまいました。今や、どの研究者でも文法的に正しい英語を数秒で生成できます。英文校正業界全体を支えてきた言語の壁――推定40~50億ドル(約6,000~7,500億円)規模のグローバル産業を支えてきた壁が、事実上消滅してしまったのです。残されたのは、はるかに修正が困難な問題です。

LLMがDiscussion(考察)セクションの執筆を「手伝う」とき、LLMはデータを理解しているわけではありません。学習コーパス(training corpus:学習用データセット)のパターンに基づいて、もっともらしく聞こえる解釈を生成しているだけなのです。実際には読んでいない文献と研究結果を結びつけます。権威あるように聞こえるが、結果から導かれるとは限らない結論を導き出します。そして、慎重な科学と無謀な推測を区別する、ヘッジング(hedging:断定を避ける慎重な表現)や条件付けを取り除いてしまうのです。

出来上がった文章は美しく読めます。しかし、間違っている可能性があります。

ここに落とし穴があります。以前であれば、英語を母語としない研究者は、文法は不完全でも論理は健全な論文を投稿していました。ところが今では、文法は完璧だが論理に問題のある論文を投稿してしまう可能性があるのです。かつて査読者(reviewer)は "the language needs to be improved"(英語を改善する必要がある)とコメントしていました。これは著者にとって不本意なコメントではありますが、対処可能な問題でした。しかし今、査読者が指摘するのは "the claims exceed the data"(主張がデータを超えている)や "the interpretation is not supported by the results"(解釈が結果に裏付けられていない)といった内容です。これは言語の問題とは比較にならないほど深刻であり、もう一度AIに文章を通しても解決できない問題なのです。

英文校正業界は、この変化に正面から向き合う必要があると考えられます。文法修正はもはや希少なサービスではありません。今、希少であり、研究者が真に必要としているのは、論文の科学的内容が整合しているかどうかを検証できる人間の目ではないでしょうか。主張がデータと一致しているか。引用文献(citations)が実在するか。議論の論理的構造(logical architecture)が健全であるか。こうした検証こそが求められているのです。

当社もこの変化に応じて業務を見直しております。しかし、より広い視点から申し上げたいことがあります。次に誰かが「AIが科学論文の執筆を "解決した"」と言った時には、こう問い返してみてください。「では、科学の方は解決したのですか?」と。完璧な英語と欠陥のある論理は、不完全な英語と確かなデータの組み合わせよりも、はるかに危険な組み合わせなのです。

言い換えれば、まさに "well-formulated crap"(形だけは立派なゴミ)ということではないでしょうか。