自己盗用判定、類似性指数算出の問題点
2020年7月15日、執筆者:Guy Harris
投稿先のJournalに、論文内の文章に盗用もしくは自己盗用の疑いがあると判断された、と言う理由で文章の表現書き換えのご依頼を当社に頂くケースが増えています。しかし、単に文章に類似性があるということだけを根拠に、盗用であると言うには大きな問題があります。
盗用チェックに最も多く使われているツールの1つがiThenticateです。論文著者の皆様にはもうおなじみかと思います。
iThenticateは、既存の論文の文章と「類似性あり」と判定された語句にタグ付けをし、その類似語句が当該論文にどのぐらい含まれるかを分析して類似指数(スコア)を計算します。スコアが20%未満であれば許容範囲と見なされます。
最近 iThenticateのスコアが37%の論文の表現書き換え依頼を頂きました。 内容を見てみると、iThenticateはアブストラクトだけでも以下の語句について他の論文のものと類似であると、タグ付けしていました。
cohort data
all-cause and cause-specific mortality
person-years of follow-up
in the analysis
95% CI: 1
the
a
何と、「the」や「a」でさえも類似のタグ付けをされていたのです。
タグ付けされたアイテムのうち1つを除いて、これらの汎用語のすべてがアブストラクトの類似指数の数値に影響を与えていました。
25個のタグ付きアイテムのうちの1つだけは、以前の論文のテキストからの「盗用」の可能性があると考えられました。しかし、実際は25個すべてのアイテムがiThenticateによる類似指数の算出に使われていたのです。
更におかしなことに、iThenticateは、タグ付けアイテムがたった10語未満の12の論文を類似論文としてリストアップし、類似性指標の算出に使っていたのです。
他にも問題はあります。iThenticateは狭い科学分野で盛んに論文を発表している研究者達を、特に厳しい状況に追いこんでいます。iThenticateは、彼らが論文に用いる用語や表現を、以前の論文に使われたものと類似しているとして常にタグ付けするのです。しかし、同じ分野の論文で類似した用語、表現を用いることは避けられません。実際、「類似性」を避けるために同じ文章を複数の論文の中で、複数の違った方法で表現しなければならならないことはよくあります。
以前の論文で使用されていたという理由だけで、正しい表現をぎこちない不正確な表現に書き換えざるを得ないのです。
盗用を最小限に抑える為なら仕方がない。と、果たして言えるのでしょうか。
盗用防止は達成すべき目標ではありますが、文章の類似性により安易に盗用と判定してしまうのは、本来の目標達成には非効率で不適切なやり方ではないでしょうか。
この記事を知人に送る





カテゴリー
ブログの
アーカイブ
2022年
4月
- GWにつきまして
2021年
12月
- 年末年始の営業予定につきまして
8月
- タンパク質構造を予測するAI
- お盆休みにつきまして
1月
- ジャーナルと編集 Part 1. ジャーナルの要件を理解していなかったジャーナル編集者
2020年
12月
- 年末年始の営業予定につきまして
- 語数制限の極めて当然なトレンドの始まり?
11月
- テキストリサイクリングについて - 日本の主要ジャーナルの編集者の見解
10月
- 宇宙で最も重いもの
- タンパク質量に関するデータの統一
8月
- 論文取り下げまでの長い道のり
- お盆休みにつきまして
7月
- 自己盗用判定、類似性指数算出の問題点
2019年
4月
- GWにつきまして
2018年
11月
- 網膜 心臓を覗ける窓
10月
- 光のスピード - さあ体感してみよう
2017年
12月
- 3D Brain
2015年
8月
- ハリウッドは英語学習法を提供してくれる
3月
- "Could"の正しい使い方
- Nature の論文は無料・・・本当に?
2014年
12月
- 自由に読める論文(オープンアクセス)と出版社の搾取
10月
- 森和俊教授ショウ賞受賞
- 森和俊教授ラスカー賞受賞
4月
- PLOS ONEのデータポリシー
3月
- 「recent」の本当の意味
1月
- ノセボ現象–インフォームドコンセントとの板挟み
2013年
12月
- Google search operatorとPubMedで英文をより良いものに
9月
- 見識の記述について
2012年
7月
- 統計学的有意性をレポートするべきか?混乱する現状
2011年
10月
- 血液検査の驚くべきグラフィックビュー
9月
- maximum/minimumとmaximal/minimalの違いとは?
5月
- “number of”を使うべき?それとも“amount of”を使うべき?
3月
- アウトライン機能を活用した論文執筆
1月
- ‘native-rashii’ライティング1 : 文末に要点を置く
2010年
9月
- 重要と言う言葉の重要性
8月
- 先入観をもたせやすい単語は避ける
6月
- 論文発表のためのヒント
5月
- 学術誌における写真の不正加工
3月
- 現行の査読プロセスで、科学分野における新知見の公表方式は正当といえるか?
1月
- パソコンのおかげで、論文を読む手間が省ける?
2009年
12月
- 略記でのピリオドの使い方
10月
- 原稿VS.査読者
8月
- 正しい “etc.” の使い方
7月
- シリアルコンマの使い方
6月
- 形容詞が連続する場合の順序
5月
- ダウンタイムのお詫び
1月
- 新薬開発の最前線
2008年
12月
- 論文のインフレ
9月
- 否定的な内容を表現する文法
8月
- 「Electronic」 と 「Electric」の違い
- another と the other の使い分け
7月
- オープンアクセスについて:1
- almost all、most、most ofの違い
6月
- 第6回 International Congress on Peer Review and Biomedical Publication
4月
- リジェクトのレター
- 永久に有効なリンク
3月
- 「Google査読」の時代は来るか?
2月
- 「査読ブログ」の時代は来るか?
2007年
11月
- 生命の写真
- 誤りがちな「more than」の使い方
9月
- 略語に付ける冠詞
- アドバイス:投稿はポジティブな姿勢で
8月
- オープンアクセスについて:2
7月
- 科学出版で起きた問題
- 論文における過去形の使用法
- 「contain」と「include」の使い分け
- 簡潔に書く方法
6月
- 査読の質の課題
- 「can」と「may」の使い分け
- コロンとセミコロン
5月
- 論文掲載における性差:女性の発言権は男性と対等か?
- アクセス無料化によるバリアの消失
- 強力な論文に仕上げるために