複製とは?/ キャッシュワン
[ 695] 複製コンテンツ(Duplicate Content)問題丸わかり絵解きガイド | Web担当者Forum
[引用サイト] http://web-tan.forum.impressrd.jp/e/2007/04/19/1215
|
最新の検索エンジンにおけるこの災いは、標準的なライセンス供与のかなり温和な部分と、時折見かける盗用に起因するものなんだ。この5年間で、コンテンツが欲しくてたまらないスパム業者は、正当な情報源から(多数の複雑な工程を通じて)コンテンツを抜き取り、ロングテールの検索トラフィックを得たり、コンテンツ連動広告に役立つことを期待し(ほかにもさまざまな不正目的のために)、抜き取ったコンテンツの語句をごちゃ混ぜにして、その文章を自分のページで使い回すといった行為を始めたんだ。こうした行為に対して、今は多くの批判が集まっている。 こうして僕らは、「複製コンテンツ問題」と「複製コンテンツによって受ける検索エンジンでのペナルティ」の世界に直面している。幸いなことに、頼りになるGooglebotのイラストと僕がいるわけだし、こうした混乱状態を多少なりとも解消する手助けをしてみたい。まず素敵な挿絵を見る前に、いくつか定義を説明しておこう。 ユニークコンテンツ――人間が書いたもので、ウェブ上に存在するほかの文字、記号、単語の組み合わせとは完全に異なり、明らかにコンピュータのテキスト処理アルゴリズム(マルコフ連鎖を使った常識はずれのスパムツールなど)によって処理されていないもの。 スニペット――複製と再利用の対象になる格言のような小規模なコンテンツ。これらは、特にユニークコンテンツの比率が高い大量の文書内にある場合、検索エンジンにとってほとんど問題にならない。 複製コンテンツ問題――通常僕がこの言葉を使う場合、ウェブサイトがペナルティを課される危険を持つ複製コンテンツではなく、単に既存のページをコピーし、検索エンジンがインデックス化する際に、どちらか選ばざるを得なくなくことを指している。 複製コンテンツのペナルティ――僕が「ペナルティ」という場合、検索エンジンが実施する事柄で、単にページをインデックスから外すよりも深刻なことだけを指している。 さて、Googleがウェブ上で複製コンテンツを見つけ出すプロセスを見ていこう。下記の例で僕はいくつか仮定を挿んでいる。 テキストを含むページが、複製コンテンツであると仮定する(挿絵ではスニペットだがページ全体が複製であるとする)。 以下に示した手順は、できるだけ簡潔明瞭にするため単純化している。これは、Googleの振る舞いを正確に示すものじゃない(でもその要点は、かなりうまく示している)。 複製コンテンツに関して、言っておくべきことがまだいくつかある。これらの多くは、複製コンテンツ問題になじみのないウェブマスターにとって、障害となるものだ。 残念なことに、こうした人たちに対する公式のガイドラインを、検索エンジンは公開していない(まあそのおかげで、僕らみたいなのが職にありつけるんだと思うけど)。こうした初心者たちと、しょっちゅう電話で話したりフォーラムで会ったりして、こんな話を書き出してみた。 コードとテキストの比率:もし自分の作ったページのコード量が膨大で、独自のHTML要素が非常に少なかったらどうなる? Googleはこうしたページをすべて、互いに複製したものと見なすんだろうか? ユニークコンテンツとナビゲーション要素の比率:サイト内の全ページに大きなナビゲーションバーがあって、ヘッダーやフッターなんかの量は多いけれど、コンテンツがほんのちょっとだったら、Googleはこれらのページを複製コンテンツと見なすだろうか? これも違う。Google(そしてYahoo!やMSN)は経験豊富だ。検索エンジンはウェブサイトのレイアウトを熟知していて、すべての(あるいはほとんどの)ページにある常設の構成物が、極めて当たり前の存在かどうか見分ける。その代わりに検索エンジンは、各ページの「独自」部分に注意を払い、多くの場合はそれ以外の部分をほとんど見ない。 ライセンスを得たコンテンツ:複製コンテンツの問題を回避したいけれど、他所のウェブサイトから掲載ライセンスを得たコンテンツを、自分のサイトに来た人たちに見せたい場合、どうしたら良いんだろう? コンテンツ盗用:自分のコンテンツをコピーしているサイトを見つけたら、どうやって解決したら良いのかな? 自分のページに関係するクエリで、盗用サイトのページを見つけても、それが補足インデックスの中とか、自分のページより下位だったら、僕の場合大体は無視しちゃう。もし、僕らがウェブ上にあるSEOmozのあらゆるコピーに対して戦いを挑むとしたら、少なくとも毎週40時間の仕事を抱えることになるだろうね。ただまあ、SEOmozは僕らのコンテンツを掲載する中で、上位ランクを得るのに十分な強さのリンクを持つ唯一のドメインだし、検索エンジンもSEOmozに対して、高品質で関連性と価値の高いコンテンツを掲載するサイトだと信頼を置いているのは、幸いと言うべきなんだろう。 一方、もし自分のサイトが比較的新しい場合や、あまり被リンクがなく、コンテンツ盗用サイトの方が自分よりも上位ランクにいる(あるいは、強力なサイト持つ誰かがコンテンツを盗用している)場合には、いくつかの対処法がある。 1つの選択肢は、Google、Yahoo!、あるいはMSNに、デジタルミレニアム著作権法(DMCA)違反の報告を提出することだ。もう1つの方法は、問題のウェブサイトに対し、告訴(もしくは告訴するぞという警告を)すること。DMCA違反通報が効果を発揮するまで何ヶ月も時間がかかるので、盗用サイトの所有者が同じ国にいるなら、おそらく後者の方が第1手としてはましだろう(弁護士の書いた文書が相手に届くまで、僕はいつも友好的な態度を崩さないよう努めているよ)。 複製コンテンツの割合:ページ内で複製コンテンツの割合がどのくらい大きくなると、ペナルティを喰らったり問題になったりするんだろう? そうね、22.45%だね。いやいや、まじめに言うと、検索エンジンはこういう情報を絶対公開しないだろう。もしそんなことをすれば、複製コンテンツ問題の防止手段を損ねることになってしまうからね。各検索エンジンではその比率が定期的に変動していて、複製コンテンツかどうか調べるときに、ただ直接比較する以上のことを行っているのは、ほぼ間違いない。もしこの疑問に対する答えが本当に欲しいなら、多分クラッカーみたいな真似をするしかないよ。 ペナルティか否か:複製コンテンツがあるせいでペナルティを喰らったのか、それとも単にインデックスから外れた(あるいは補足インデックスに追いやられた)だけなのか、どうすれば判断できるんだろう? 複製コンテンツの掲載期間が相当長期にならないと、検索エンジンはペナルティを課さない。ただし僕の知る限り、たとえ真っ当なブランドのドメインだろうと、ペナルティは喰らう。ペナルティは、十分なユニークコンテンツがないのに、他所のドメインから無数のページをコピーし始めると発生する。新規サイトや所有者が変わったばかりのサイトなどは、特に注意が必要だ。しかし、ペナルティを受けたとか、多数のページが補足インデックスに入ったとか、そんなことを気にするよりも、これまで説明してきた問題を修正するよう強く薦めるよ。 正規版コンテンツと複製版コンテンツ――『検索エンジン最適化の初心者ガイド』改訂版#4-313種類のブラウザ用人気ツールバー徹底検証――開発者/マーケターに便利かどうか【前半】13種類のブラウザ用人気ツールバー徹底検証――開発者/マーケターに便利かどうか【後半】検索エンジンはSERPの質を高めたいならソーシャルメディアのエントリーを減らすべき?機内からのワイヤレス・インターネット接続の広がりと評判管理の新時代リダイレクト設定とサーバー選びの問題――『検索エンジン最適化の初心者ガイド』改訂版#4-4コンテンツと内部リンク用にキーワードを適切に配分するための図表メソッドロボット排除プロトコル(REP)とは?――メタタグやrobots.txtの基礎フォーム作成時に心がけること ――ユーザーは直感的に理解してくれない「ググれるか」が勝負――広告と検索エンジンマーケティングのズレキーワード広告をいったん中止すべきときマイクロソフトのヤフー買収関連まとめ(前編)マイクロソフトのヤフー買収関連まとめ(後編)絶望的に思えるヘビークリッカーの存在とディスプレイ広告やブランディングの考察ページをやたらと細切れにしてPV数を稼ごうとするメディアサイトの問題と解決策欧州でも猛烈に進化しているモバイル検索――革命は進みつつある/SES London初日レポートグーグルの「〜とは」検索と、そこに表示されるための11の秘訣検索エンジンがリンクベイトにペナルティを与える日は来るのか?ビジネスを(特にウェブで)作って率いていく人に贈る18個のアドバイスビジターを顧客にするサイトデザインMSのヤフー買収がもたらすものとキーワード調査の重要性/SES London2日目レポート(前編)SEOとプレスリリース・ニュースリリース最適化/SES London2日目レポート(後編)すばらしいコンテンツを作って「読者」を「ファン」にする4つのポイントグーグルでは上位なのにヤフーでは順位が低いのはなぜか(またはその逆)?最近ネットで有名になることを目標にしている痛いやつが多すぎないか?検索エンジンのアルゴリズムとは? 過去6年の変遷にみる順位決定の仕組み動的サイトにおけるSEOの施策/充実のSES London最終日レポート(前編)規制の厳しい業界のSEO/充実のSES London最終日レポート(中編)SEO支援ツールの数々を紹介&評判管理/充実のSES London最終日レポート(後編)(03/28公開予定)「検索エンジン最適化のためのビギナーズガイド」改訂版パート5 ??キーワード調査(03/31公開予定)バックナンバーインデックスへ |