ホームページ > テクノロジー周辺機器 > AI > Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

PHPz
リリース: 2024-06-11 09:14:23
オリジナル
993 人が閲覧しました

最近、Google の内部文書 2,500 ページが流出し、「インターネットの最も強力な裁定者」である検索がどのように機能するかが明らかになりました。

SparkToro の共同創設者兼 CEO は匿名の人物で、個人ウェブサイトにブログ投稿を公開し、「匿名の人物が何千ページもの Google Search API ドキュメントの漏洩を私と SEO 関係者全員に共有してくれた。皆さんもぜひ見てください!」

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

長年にわたり、ランド・フィッシュキンはSEO(検索エンジン最適化、検索エンジン最適化)の分野でトップのスポークスマンを務めてきました。「ウェブサイトオーソリティ」(ドメイン評価)の概念は彼の提案です。

彼はこの分野で非常に尊敬されているため、ランド・フィッシュキンは当然のことながら、ニュースを発表する前にこの未知の匿名人物を慎重にチェックする必要がありました。

先週の金曜日、何度かメールを送った後、ランド・フィッシュキンは謎の男とビデオ通話をした、もちろん相手は顔を見せなかった。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

この呼び出しにより、Rand は漏洩した文書についてさらに知ることができました。これは 2,500 ページを超える API 文書であり、14,014 のプロパティが含まれています。これらのプロパティは、Google の内部部分である「Content API Warehouse」に似ています。

ドキュメントのコミット履歴によると、コードは 2024 年 3 月 27 日に GitHub にアップロードされ、2024 年 5 月 7 日まで削除されませんでした。

電話の後、ランド氏は匿名の人物の職歴とマーケティング界の共通の知人を確認した。同氏は、リーク情報を共有し、「Google従業員が何年にもわたって広めてきた嘘の一部」に反論する記事を公開することで、Anonymousの期待に応えることにした。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

Matt Cutts、Gary Ilyes、John Mueller は、Google が何年もクリックベースのユーザーデータをランキングに使用してきたことを否定しています

ランドの記事では、サンドボックス、クリックスルー率、滞在時間などについて語っています。それはSEO要素に影響を与えるが、Googleはこれまで強く否定してきた。

この記事が公開されるとすぐに、世論、特に SEO 界隈で大騒ぎを引き起こしました。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

別のSEO専門家マイク・キングも、「Googleのアルゴリズムの秘密」を明らかにする記事を公開した。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

マイク・キング氏は、「流出した文書には、Googleがどのようなデータを収集して使用しているか、Googleが選挙などの機密性の高いトピックを宣伝しているWebサイト、小規模Webサイトやその他のトピックをGoogleがどのように扱っているかなどが含まれている」と述べた。情報によると、Google は長年にわたり完全に真実を報告していない、「文書内の一部の情報は Google の代表者による公式声明と矛盾しているようです

」この爆発的な漏れ。

本当のオーナーは声を上げなかったが、代わりに以前匿名で情報を提供していた謎の人物が現れた。 5月28日、謎の男はついに名乗り出る決意をし、自身の身元を明かす動画を公開した。

彼の名前は Erfan Azimi で、SEO 実践者であり、EA Eagle Digital の創設者でもあります。

それで、Erfan Azimi によって提供された文書は Google 内部の「Content API Warehouse」からのものであるため、Google API Content Warehouse とは何なのか、そしてこの文書は正確に何を漏洩するのかを理解する必要があります。

Google で「ブラック ボックス」を検索

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

このリークは GitHub から来ているようで、最も信頼できる説明は通話中に Erfan Azimi が Rand に語った内容と一致しています。ドキュメント内のリンクの多くがプライベート GitHub リポジトリや、特定の認証ログインを必要とする Google 企業 Web サイトの内部ページにつながっていたため、誤って一時的に公開されました。

2024 年 3 月から 5 月までの偶発的な公開期間中に、API ドキュメントは Hexdocs (インデックス付き公開 GitHub リポジトリ) に拡散され、そこで他の人によって発見され、拡散されました。

ランドを困惑させているのは、他の人もコピーを持っていると彼が確信していることですが、この暴露がなされるまで、この文書は公に議論されていませんでした。

元 Google 開発者によると、ほぼすべての Google チームは、プロジェクト担当者が利用可能なデータ要素に慣れるのに役立つ、さまざまな API プロパティとモジュールを説明するこのようなドキュメントを持っています。

この漏洩情報は、同じ表記スタイル、形式、さらにはプロセス/モジュール/関数の名前と参照を使用して、GitHub パブリック リポジトリおよび Google Cloud API ドキュメント内の他の情報と一致します。

「API コンテンツ ウェアハウス」というと専門用語のように聞こえますが、Google 検索エンジン チームのメンバー向けのガイドと考えることができます。

これは図書館の本のカタログのようなもので、Google は従業員にどのような本があり、どのように入手できるかを従業員に伝えるために使用しています。

しかし、違いは、図書館は公開されているのに対し、Google 検索は世界で最も謎めいて厳重に守られているブラックボックスの 1 つであるということです。過去 20 年以上にわたり、Google の検索部門からこれほどの規模または詳細な情報が漏洩したことはありません。

「漏洩」とは何ですか?

1. ユーザーのクリック データの使用

ドキュメント内の一部のモジュールでは、「goodClicks」、「badClicks」、「lastLongestClicks」、インプレッション数、squashed、unsquashed、unicorn クリックおよびその他の機能について言及しています。これらはすべて Navboost と Glue に関連しており、Google の司法省の証言を読んだことがある人は、これら 2 つの用語に精通しているかもしれません。 Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

以下は、司法省弁護士 Kenneth Dintzer による、検索品質チームの検索担当副社長である Pandu Nayak に対する反対尋問からの関連抜粋です:

Q. 念のために言っておきますが、Navboost の歴史は 2005 年に遡りますか?

A. この範囲内では、もしかしたらもっと早いかもしれません。

Q. アップデートされましたが、以前の Navboost ではなくなりましたか?

A.もうありません

Q.接着剤というものもありますよね?

A. グルーは、ページ上の他のすべての機能を含む Navboost の別名です。

Q.それについては後で話すつもりでしたが、今話してもいいでしょう。先ほど説明したように、Navboost は Web 結果を生成できますよね?

A.はい。

Q. Glue は、Web 結果ではないページ上のすべてのコンテンツも処理できますよね?

A そうです。

Q. 一緒に、最終的に検索結果ページに表示されるコンテンツの検索とランク付けに役立ちますか?

A そうです。はい、それらはすべてその兆候です。

この流出した API 文書は Nayak 氏の証言を裏付けており、Google のウェブサイト品質特許と一致しています。

Googleには、ランキングシステムにカウントされたくないクリックを除外し、カウントしたいクリックをランキングシステムに含める方法があるようです。

ポゴスティッキング (検索者が結果をクリックした後、見つけた答えに満足できずにすぐに戻るボタンをクリックすること) とインプレッションも測定しているようです。

2. Chrome のクリックストリームをコマンド化する

Google の代表者は、ページのランク付けに Chrome データを使用していないと何度も述べていますが、流出した文書では、Chrome の検索でのサイトの表示方法に関するセクションで具体的に言及しています。

この文書を漏洩した匿名の情報源は、Google は 2005 年の時点で数十億のインターネット ユーザーの完全なクリック ストリームを取得したいと考えており、Chrome ブラウザを通じてその望みを達成したと述べました。

API ドキュメントには、Google が Chrome を使用して個々のページとドメイン全体に関連するいくつかのカテゴリの指標を計算できることが示されています。

このドキュメントでは、Google がサイトリンク関連の機能をどのように作成するかについて紹介しますが、これは特に興味深いものです。

これは、topUrl と呼ばれる呼び出しを示しています。つまり、「最高の two_level_score、つまり chrome_trans_clicks を持つ上位 URL のリスト」です。

Google がこの Web ページを Chrome ブラウザで使用する可能性が高いと推測できます。クリック数を使用して、Web サイト上で最も人気のある URL または重要な URL を特定し、どの URL をサイトリンク機能に含めるべきかを計算します。

Google の検索結果では、ユーザーが最もよくアクセスするページが常に表示されます。これは、何十億もの Chrome ユーザーのクリックストリームを追跡することによって行われます。

もちろん、ネットユーザーはGoogleのこの行動に不満を持っています。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

3. 深刻なトピックのホワイトリストを作成する

「Quality Travel Website」モジュールを通じてそのような推論を行うことは難しくありません - Google には旅行分野のホワイトリストがありますが、それが Google の「旅行」検索オプションに特化したものなのか、それともより広範なウェブ検索に向けたものなのかはまだ明らかではありません。

さらに、文書内で「isCovidLocalAuthority」(新しい王冠地方自治体)と「isElectionAuthority」(選挙当局)に関する複数の言及は、Googleが特定のドメイン名をホワイトリストに登録しており、これらのドメイン名がユーザーの検索に表示される可能性があることを示しています。議論の余地のある問題が最初に表示されます。

例えば、2020年の米国大統領選挙の後、ある候補者は票が盗まれたと証拠もなしに主張し、支持者たちに国会議事堂への襲撃を奨励しました。

Google はほぼ確実に、人々がこの事件に関する情報を検索する最初の場所の 1 つとなるでしょう。Google の検索エンジンが選挙の証拠を不正確に説明するプロパガンダ サイトを返した場合、さらなる論争、暴力、さらには選挙の終焉に直接つながる可能性があります。アメリカの民主主義。

この観点からすると、ホワイトリストには実用的な意味があります。ランド・フィッシュキン氏は、「自由で公正な選挙の継続を望む我々は、この状況でホワイトリストを利用してくれたGoogleのエンジニアに非常に感謝すべきだ。」と述べた。Googleは長い間EWOKと呼ばれる品質評価プラットフォームを持っており、現在、一部のユーザーがそのような評価を行っているという証拠がある。品質評価者の要素は検索システムで使用されます。

ランド フィッシュキンは、EWOK 品質評価者によって生成されたスコアとデータが、単なる実験用のトレーニング セットではなく、Google の検索システムに直接参加する可能性があることに興味深いことに気づきました。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

もちろん、これらは「単なるテスト用」である可能性がありますが、リークされたドキュメントを参照すると、これが真実である場合は、コメントとモジュールの詳細に明確に記載されていることがわかります。

そこに記載されている「各文書の適合性評価」はEWOKの評価によるものですが、詳細な説明はありませんが、ウェブサイトに対する人間の評価がいかに重要であるかは想像に難くありません。

このドキュメントでは、「人間による評価」(EWOK からのものなど) についても言及されており、それらは「通常、評価パイプラインにのみ入力される」と述べており、それらが主にこのモジュールのトレーニング データである可能性があることを示唆しています。

しかし、ランド フィッシュキン氏は、これは依然として非常に重要な役割であり、マーケティング担当者は、Web サイトの適切な認識と評価にとって品質評価者がいかに重要であるかを無視すべきではないと考えています。

Googleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露される

5. クリックデータを使用して重みを決定します

Google はリンクインデックスを 3 つのレベル (低品質、中品質、高品質) に分け、クリックデータを使用して Web サイトがどのレベルに属するかを決定します。

- サイトがクリックされなかった場合、そのサイトは低品質のインデックスに登録され、リンクは無視されます

- サイトが検証可能なデバイスから多くのクリックを獲得した場合、そのサイトは高品質のインデックスに登録されますそしてリンクはランキングシグナルを通過します

リンクがより高いレベルのインデックスに属しているために「信頼できる」リンクになると、PageRank やアンカーをフローしたり、スパムリンクシステムによってフィルタリング/削除されたりする可能性があります。

低品質のリンク インデックスからのリンクはサイトのランキングに影響を与えることはなく、無視されるだけです。

Google の検索アルゴリズムは、おそらくインターネット上で最も重要なシステムであり、さまざまな Web サイトの存続と消滅、そしてオンラインで何が表示されるかを決定します。

しかし、Web サイトを正確にどのようにランク付けするのかは長い間謎であり、ジャーナリスト、研究者、SEO に携わる人々は常にこのパズルの答えをつなぎ合わせています。

Google はこのリークについて沈黙を保っており、謎は永続しているようです。

しかし、今回は Google 史上最も深刻な漏洩であり、依然として亀裂が生じ、検索の仕組みについて人々に前例のない理解を与えました。

以上がGoogleの検索アルゴリズムの内幕が明らかになり、2,500ページに及ぶ文書が実名で流出!検索ランキングの嘘が暴露されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート