論文作成支援・統計解析・翻訳・学術研究のためのショッピングサイト

『コピペルナー』のコピペチェックのしくみ


学生・部下からのレポートのチェックにコピペがないか頭を悩ませていませんか?
今回は、コピペルナーが実際にどのような動作で剽窃チェックをおこなっているのか紹介します。


チェックできる文書とできない文書

【チェックできる文書】
●インターネットの検索エンジンで検索できる文書
●チェック対象としてコピペルナーに同時に登録した文書同士
●過去にコピペルナーでチェックして保存済みの文書
●コピペルナーの文献登録機能で予め登録してある文書

【チェック対象外の文書】
●紙に印刷されている文書
●インターネット上に存在しているが、アクセスに認証が必要な文書

紙の文書をチェックするには、OCR(光学文字認識)ソフトで紙文書の画像をテキストデータに変換し、そのデータをコピペルナーで読み込ませる必要があります。


また、コピペルナーでチェックできるのはテキストデータのみなので、画像、図、グラフなどはチェック対象外です。


コピペチェックの流れ

コピペルナーは、次のような手順でコピペチェックを行っています。

 

  1. チェック対象として読み込んだ文書から、重要な単語や、重要な単語を多く含む文節(重要文節)を自動的に抽出し、検索キーワードに設定します。検索キーワードは、ユーザー自身で手動設定することもできます。

  2. 設定された検索キーワードを使って、Google検索を行い、複数のWebページを取得します。

  3. 取得した複数のWebページについて、そのページ内容をダウンロードします。ダウンロードしたデータがテキスト形式以外(Word、PDFなど)の場合、テキスト形式に変換されます。

  4. チェック対象として読み込んだ文書とダウンロードしたデータの内容を、文節単位で比較します。日本語辞書を搭載しつつ、形態素解析を行うことで、日本語のチェック精度を高めております。

  5. コピペ割合について、文節単位で算出します。


コピペチェックのカスタマイズ

コピペルナーは目的に合わせてカスタマイズすることが可能です。
チェックするページ、キーワードを手動で設定することで、より精度の高いコピペチェックが可能になります。


●コピペルナーが自動抽出したキーワード以外にも手動でキーワードを追加可能。
コピペルナーは設定したキーワードを検索し、読み込んだレポートと比較するため、キーワードの設定次第で判定結果が変わってきます。自動抽出に加えて任意のキーワードを設定することで、より精度の高い判定が可能になります。

●特定ドメイン・サイトのチェックが可能
Wikipediaは学生が参考にする確率が高いため、デフォルトで検索対象に指定されています。
これ以外にも、課題に対して学生が見に行くサイトが予想できれば予め指定しておくことで、判定に役立てることが出来ます。

●コピぺ判定比較対象として取得するURL数、PDF数は設定変更可能。
HTML:初期設定30ページ 最大100ページ
PDF:初期設定10ページ 最大50ページ


まとめ

コピペルナーはレポート・論文の監督という役割であり、不正を暴くツールではありません。
考案者の杉光教授の願いは「考える力や表現する力を養ってほしい」というものです。
コピペルナーはあくまで著作物を正しく扱い、将来間違った行為を行わないように指導するための支援ツールです。