自己盗用判定、類似性指数算出の問題点

投稿先のJournalに、論文内の文章に盗用もしくは自己盗用の疑いがあると判断された、と言う理由で文章の表現書き換えのご依頼を当社に頂くケースが増えています。しかし、単に文章に類似性があるということだけを根拠に、盗用であると言うには大きな問題があります。

盗用チェックに最も多く使われているツールの1つがiThenticateです。論文著者の皆様にはもうおなじみかと思います。
iThenticateは、既存の論文の文章と「類似性あり」と判定された語句にタグ付けをし、その類似語句が当該論文にどのぐらい含まれるかを分析して類似指数(スコア)を計算します。スコアが20%未満であれば許容範囲と見なされます。

最近 iThenticateのスコアが37%の論文の表現書き換え依頼を頂きました。 内容を見てみると、iThenticateはアブストラクトだけでも以下の語句について他の論文のものと類似であると、タグ付けしていました。

     cohort data
     all-cause and cause-specific mortality
     person-years of follow-up
     in the analysis
     95% CI: 1
     the
     a

何と、「the」や「a」でさえも類似のタグ付けをされていたのです。
タグ付けされたアイテムのうち1つを除いて、これらの汎用語のすべてがアブストラクトの類似指数の数値に影響を与えていました。
25個のタグ付きアイテムのうちの1つだけは、以前の論文のテキストからの「盗用」の可能性があると考えられました。しかし、実際は25個すべてのアイテムがiThenticateによる類似指数の算出に使われていたのです。

更におかしなことに、iThenticateは、タグ付けアイテムがたった10語未満の12の論文を類似論文としてリストアップし、類似性指標の算出に使っていたのです。

他にも問題はあります。iThenticateは狭い科学分野で盛んに論文を発表している研究者達を、特に厳しい状況に追いこんでいます。iThenticateは、彼らが論文に用いる用語や表現を、以前の論文に使われたものと類似しているとして常にタグ付けするのです。しかし、同じ分野の論文で類似した用語、表現を用いることは避けられません。実際、「類似性」を避けるために同じ文章を複数の論文の中で、複数の違った方法で表現しなければならならないことはよくあります。
以前の論文で使用されていたという理由だけで、正しい表現をぎこちない不正確な表現に書き換えざるを得ないのです。
盗用を最小限に抑える為なら仕方がない。と、果たして言えるのでしょうか。

盗用防止は達成すべき目標ではありますが、文章の類似性により安易に盗用と判定してしまうのは、本来の目標達成には非効率で不適切なやり方ではないでしょうか。