구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

PHPz
풀어 주다: 2024-06-11 09:14:23
원래의
958명이 탐색했습니다.

최근 구글 내부 문서 2,500페이지가 유출되면서 '인터넷의 가장 강력한 중재자'인 검색이 어떻게 작동하는지가 드러났습니다.

SparkToro의 공동 창립자이자 CEO는 익명의 사람입니다. 그는 자신의 개인 웹사이트에 블로그 게시물을 게시하여 "익명의 사람이 수천 페이지의 유출된 Google 검색 API 문서와 SEO 관련 모든 사람을 나와 공유했습니다. 다들 꼭 보셔야 해요!"

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

Rand Fishkin은 수년 동안 SEO(검색 엔진 최적화, 검색 엔진 최적화) 분야의 최고의 대변인이었습니다. "웹 사이트 권위"(도메인 등급)의 개념 그의 제안입니다.

이 분야에서 매우 존경받는 인물이기 때문에 Rand Fishkin은 당연히 소식을 전하기 전에 이 알려지지 않은 익명의 사람을 주의 깊게 확인해야 했습니다.

지난 금요일, 랜드 피쉬킨은 여러 차례 이메일을 보낸 뒤 의문의 남자와 영상 통화를 했습니다. 물론 상대방은 얼굴을 보여주지 않았습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

이 통화를 통해 Rand는 유출된 문서에 대해 더 많이 알 수 있었습니다. 이 문서는 14,014개의 속성을 포함하는 2,500페이지가 넘는 API 문서입니다. 이러한 속성은 Google 내부 부분인 "Content API Warehouse"와 유사합니다.

문서의 커밋 내역에 따르면 해당 코드는 2024년 3월 27일 GitHub에 업로드되었으며, 2024년 5월 7일까지 삭제되지 않았습니다.

통화 후 Rand는 익명의 사람의 경력과 마케팅 분야의 상호 지인을 확인했습니다. 그는 유출 내용을 공유하고 "구글 직원들이 수년간 퍼뜨린 거짓말 중 일부"를 반박하는 기사를 게시함으로써 어나니머스의 기대에 부응하기로 결정했습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

Matt Cutts, Gary Ilyes 및 John Mueller는 Google이 수년간 순위를 매기기 위해 클릭 기반 사용자 데이터를 사용해 왔다는 사실을 부인합니다.

Rand의 기사에서는 샌드박싱, 클릭률, 체류 시간 등에 대해 설명합니다. 이는 Google이 이전에 강력하게 부인했던 SEO 요소에 영향을 미칩니다.

기사가 공개되자마자 여론, 특히 SEO계에서 즉시 큰 소란을 일으켰습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

또 다른 SEO 전문가인 Mike King도 "Google 알고리즘의 비밀"을 폭로하는 기사를 게재했습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

Mike King은 "유출된 문서에는 Google이 수집하고 사용하는 데이터, Google이 선거와 같은 민감한 주제를 홍보하는 웹사이트, Google이 소규모 웹사이트 및 기타 주제를 처리하는 방법이 포함되어 있습니다."라고 말했습니다. 정보에 따르면 Google은 "문서의 일부 정보가 Google 담당자의 공개 진술과 충돌하는 것으로 보입니다."라고 Google은 수년 동안 완전히 진실되게 보고하지 않았습니다. 이 폭발적인 누출.

실주인은 말을 하지 않았지만, 대신 이전에 익명으로 정보를 제공했던 의문의 인물이 나타났습니다. 지난 5월 28일, 의문의 남성이 드디어 나서기로 결정하고 자신의 정체를 공개하는 영상을 공개했다.

그의 이름은 Erfan Azimi이고 SEO 전문가이자 EA Eagle Digital의 창립자이기도 합니다.

그렇다면 Erfan Azimi가 제공한 문서는 Google 내부의 "Content API Warehouse"에서 나온 것이므로 Google API Content Warehouse가 무엇인지, 이 문서가 유출되는 내용이 정확히 무엇인지 이해해야 합니다.

Google에서 "블랙 박스" 검색

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

이 유출은 GitHub에서 나온 것으로 보이며 가장 신뢰할 만한 설명은 Erfan Azimi가 통화 중에 Rand에게 말한 내용과 일치합니다.

이 문서는 문서에 있는 많은 링크가 특정 인증 로그인을 요구하는 Google 회사 웹사이트의 내부 페이지뿐만 아니라 비공개 GitHub 저장소로 연결되기 때문에 의도치 않게 간략하게 공개되었습니다.

2024년 3월부터 5월까지의 우연한 공개 기간 동안 API 문서는 Hexdocs(인덱싱된 공개 GitHub 저장소)로 확산되었으며, 그곳에서 다른 사람들에 의해 발견되고 확산되었습니다.

Rand가 당황스러운 점은 다른 사람도 사본을 가지고 있다고 확신한다는 것입니다. 그러나 이 공개가 있기 전까지 이 문서는 공개적으로 논의되지 않았습니다.

전직 Google 개발자에 따르면 거의 모든 Google 팀에는 프로젝트 담당자가 사용 가능한 데이터 요소에 익숙해지는 데 도움이 되는 다양한 API 속성과 모듈을 설명하는 문서가 있습니다.

이 유출된 정보는 동일한 표기 스타일, 형식, 프로세스/모듈/함수 이름 및 참조를 사용하여 GitHub 공개 저장소 및 Google Cloud API 문서의 다른 정보와 일치합니다.

"API 콘텐츠 웨어하우스"는 기술적인 용어처럼 들리지만 Google 검색 엔진 팀원을 위한 가이드라고 생각하면 됩니다.

도서관의 책 카탈로그와 같습니다. Google에서는 이를 사용하여 직원들에게 어떤 책을 읽을 수 있는지, 어떻게 구할 수 있는지 알려줍니다.

하지만 차이점은 도서관은 공개되어 있는 반면, Google 검색은 세계에서 가장 신비롭고 삼엄하게 보호되는 블랙박스 중 하나라는 것입니다. 지난 20년 동안 Google 검색 부서에서는 이 정도 규모나 세부 정보가 유출된 적이 없습니다.

무엇이 유출됐나요?

1. 사용자 클릭 데이터 사용

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

문서의 일부 모듈에는 "goodClicks", "badClicks", "lastLongestClicks", 노출수, squashed, unsquashed 및 unicorn 클릭 및 기타 기능이 언급되어 있습니다. 이는 모두 Navboost 및 Glue와 관련이 있으며 Google의 법무부 증언을 읽은 사람들은 이 두 용어에 익숙할 것입니다.

다음은 검색 품질팀 검색 담당 부사장인 Pandu Nayak에 대한 법무부 변호사 Kenneth Dintzer의 반대 심문에서 발췌한 내용입니다.

Q. Navboost의 역사는 2005년으로 거슬러 올라갑니다.

A. 이 범위 내에서는 어쩌면 더 일찍일 수도 있습니다.

Q. 업데이트가 됐는데 더 이상 예전의 Navboost가 아닌가요?

A. 더 이상은 안 돼요

Q. 다른 하나는 접착제겠죠?

A.glue는 페이지의 다른 모든 기능을 포함하여 Navboost의 또 다른 이름입니다.

Q. 알겠습니다. 나중에 얘기하려고 했는데 지금 얘기할 수 있겠네요. 논의한 것처럼 Navboost는 웹 결과를 생성할 수 있습니다. 그렇죠?

A 네.

Q. Glue는 웹 결과가 아닌 페이지의 모든 콘텐츠도 처리할 수 있겠죠?

A 맞습니다.

Q. 궁극적으로 검색 결과 페이지에 표시되는 콘텐츠를 찾고 순위를 매기는 데 도움이 되나요?

A 맞습니다. 그것들은 모두 그 신호입니다. 그렇습니다.

이 유출된 API 문서는 Nayak 씨의 증언을 뒷받침하며 Google의 웹 사이트 품질 특허와 일치합니다.

Google에는 순위 시스템에 포함되기를 원하지 않는 클릭을 필터링하고 순위 시스템에 포함되기를 원하는 클릭을 포함시키는 방법이 있는 것 같습니다.

그들은 또한 포고스틱(검색자가 결과를 클릭한 후 찾은 답변이 만족스럽지 않아 빠르게 뒤로 버튼을 클릭하는 경우)과 노출수를 측정하는 것 같습니다.

2. Chrome의 Clickstream을 공격

Google 담당자는 Chrome 데이터를 사용하여 페이지 순위를 지정하지 않는다고 여러 번 밝혔지만 유출된 문서에서는 사이트가 Chrome 검색에 표시되는 방식에 대한 섹션에서 구체적으로 언급합니다.

문서를 유출한 익명의 소식통은 구글이 2005년 초부터 수십억 인터넷 사용자의 완전한 클릭 스트림을 얻고 싶었고 크롬 브라우저를 통해 원하는 것을 달성했다고 말했습니다.

API 문서에 따르면 Google은 Chrome을 사용하여 개별 페이지 및 전체 도메인과 관련된 여러 범주의 측정항목을 계산할 수 있습니다.

이 문서에서는 Google이 사이트링크 관련 기능을 만드는 방법을 소개하는데, 특히 흥미롭습니다.

topUrl이라는 호출이 표시됩니다. 즉, "two_level_score가 가장 높은 상위 URL 목록, 즉 chrome_trans_clicks"입니다.

Google이 Chrome 브라우저에서 해당 웹페이지를 사용할 가능성이 있음을 유추할 수 있습니다. 클릭수를 확인하고 이를 사용하여 웹사이트에서 가장 인기 있거나 중요한 URL을 확인한 다음 사이트링크 기능에 어떤 URL을 포함해야 하는지 계산합니다.

Google 검색 결과에는 수십억 Chrome 사용자의 클릭 스트림을 추적하여 항상 사용자가 가장 많이 방문한 페이지가 표시됩니다.

물론 네티즌들은 구글의 이런 행태에 불만을 품고 있습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

3. 심각한 주제에 대한 허용 목록 만들기

"고품질 여행 웹사이트" 모듈을 통해 그러한 추론을 도출하는 것은 어렵지 않습니다. Google은 여행 분야에 허용 목록을 가지고 있지만 Google의 '여행' 검색 옵션에 대한 것인지, 아니면 더 광범위한 웹 검색에 대한 것인지는 아직 명확하지 않습니다.

또한 문서에서 'isCovidLocalAuthority'(새로운 왕관 지방 당국) 및 'isElectionAuthority'(선거 당국)가 여러 번 언급된 것은 Google이 특정 도메인 이름을 허용 목록에 추가하고 있으며 이러한 도메인 이름이 사용자 검색에 나타날 수 있음을 나타냅니다. 논란의 여지가 있는 문제가 먼저 표시됩니다.

예를 들어, 2020년 미국 대통령 선거 후 특정 후보가 증거 없이 투표가 도난당했다고 주장하고 추종자들에게 국회의사당을 습격하도록 부추겼습니다.

Google은 사람들이 이 사건에 대한 정보를 가장 먼저 검색하는 장소 중 하나일 것이 거의 확실하며, 검색 엔진이 선거 증거를 부정확하게 설명하는 선전 사이트를 검색하는 경우 이는 직접적으로 더 많은 논란, 폭력, 심지어는 선거의 끝으로 이어질 수 있습니다. 미국 민주주의.

이러한 관점에서 화이트리스트는 실용적인 의미를 갖습니다. Rand Fishkin은 "자유롭고 공정한 선거가 계속되기를 원하는 사람들은 이러한 상황에서 화이트리스트를 사용한 Google 엔지니어들에게 매우 감사해야 합니다."라고 말했습니다. Google은 오랫동안 EWOK라는 품질 평가 플랫폼을 운영해 왔으며 이제 일부 증거가 있습니다. 품질 평가자의 요소는 검색 시스템에 사용됩니다.

Rand Fishkin은 EWOK 품질 평가자가 생성한 점수와 데이터가 단순한 실험용 교육 세트가 아니라 Google 검색 시스템에 직접 참여할 수 있다는 점에 흥미를 느꼈습니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

물론 이는 "단순한 테스트용"일 수 있지만 유출된 문서를 찾아보면 이것이 사실인 경우 댓글과 모듈 세부 정보에 명확하게 명시되어 있음을 알 수 있습니다.

여기에 언급된 "문서별 관련성 등급"은 EWOK의 평가에서 나온 것입니다. 자세한 설명은 없지만 웹 사이트에 대한 인간의 평가가 얼마나 중요한지 상상하기 어렵지 않습니다.

문서에는 "사람 평가"(예: EWOK의 평가)도 언급되어 "일반적으로 평가 파이프라인에서만 채워집니다"라고 언급하여 이 모듈에서 주로 교육 데이터일 수 있음을 시사합니다.

그러나 Rand Fishkin은 이것이 여전히 매우 중요한 역할이라고 믿으며 마케팅 담당자는 품질 평가자가 웹사이트에 대한 좋은 인식과 평가에 얼마나 중요한지 무시해서는 안 됩니다.

구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출

5. 클릭 데이터를 사용하여 가중치 결정

Google은 링크 지수를 세 가지 수준(낮음, 중간, 높음)으로 나누고, 클릭 데이터를 사용하여 웹사이트가 어느 수준에 속하는지 결정합니다.

- 클릭이 많이 발생하지 않는 사이트는 저품질 지수에 들어가고 링크는 무시됩니다

- 검증 가능한 기기에서 사이트의 클릭이 많이 발생하면 고품질 지수에 들어갑니다. 링크는 순위 신호를 통과합니다.

링크가 더 높은 수준의 색인에 속하기 때문에 "신뢰할 수 있는" 링크가 되면 PageRank 및 앵커로 이동하거나 스팸 링크 시스템에 의해 필터링/제거될 수 있습니다.

품질이 낮은 링크 색인의 링크는 사이트 순위에 영향을 미치지 않으며 단순히 무시됩니다.

Google의 검색 알고리즘은 아마도 인터넷에서 가장 중요한 시스템일 것이며 다양한 웹사이트의 생사를 결정하고 우리가 온라인에서 보는 내용을 결정합니다.

그러나 이것이 웹사이트 순위를 정확히 어떻게 매기는지는 오랫동안 미스터리였으며 언론인, 연구원, SEO 분야에서 일하는 사람들은 이 퍼즐에 대한 답을 끊임없이 모으고 있습니다.

Google은 이 유출에 대해 침묵을 지키고 있으며 겉으로는 미스터리를 영속시키는 것 같습니다.

그러나 이번에는 Google 사상 최악의 유출 사건으로 균열이 열렸고 사람들에게 검색이 어떻게 작동하는지에 대한 전례 없는 이해를 제공했습니다.

위 내용은 구글 검색 알고리즘의 비하인드 스토리가 공개되고, 실명이 포함된 2,500페이지의 문서가 유출됐다! 검색 순위 거짓말 노출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!