首頁 > 科技週邊 > 人工智慧 > 谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

PHPz
發布: 2024-06-11 09:14:23
原創
989 人瀏覽過

日前,Google2500頁的內部文件被洩露,揭示了搜尋——「網路最強大的仲裁者」的運作方式。

SparkToro的共同創辦人兼CEO是一位匿名人士,他在個人網站上發表部落格文章,宣稱「一位匿名人士與我分享了數千頁洩露的谷歌搜尋API文檔,SEO中的每個人都應該看到它們! ,搜尋引擎優化)的頂尖代言人,「網站權威性」(Domain Rating)這個概念就是他提出的。

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿既然在這個領域德高望重,Rand Fishkin爆料之前自然要對這位不明身份的匿名人士小心查驗。

上週五,在發送了幾封電子郵件之後,Rand Fishkin與這位神秘人進行了視訊通話,當然,對方並沒有露臉。

這次通話讓Rand了解了這份洩密文件的更多資訊:這是一份超過2500頁的API文檔,其中包含14014條屬性。這些屬性類似於Google的內部部分「Content API Warehouse」。

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿根據文件的提交歷史記錄,程式碼於2024年3月27日上傳到GitHub,直到2024年5月7日才被刪除。

在通話結束後,Rand確認了匿名人的工作經驗和他們在行銷界共同認識的人。他決定滿足匿名人的期望——發表一篇文章來分享這次洩露,並駁斥了谷歌員工「多年來一直在傳播的一些謊言」。

Matt Cutts、Gary Ilyes和John Mueller否認Google在多年來將基於點擊的用戶資料用於排名

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿Rand的文章談到了沙箱、點擊率、停留時間等影響SEO的因素,而這正是谷歌之前極力否認的。

文章一經發布,果然立刻引發了輿論嘩然,尤其受到了SEO圈的特別關注。

另一位SEO專家Mike King也發表文章,揭示Google「演算法的秘密」。 谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

Mike King表示,「洩漏的文件涉及Google收集和使用哪些資料、Google將哪些網站提升為選舉等敏感話題、Google如何處理小型網站等主題。

##面對大家的質疑,Google選擇沉默,拒絕對此爆炸性洩漏事件發表評論。 谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

正主沒有發聲,反而是先前匿名提供訊息的神祕人士露面了。 5月28日,神秘人終於決定挺身而出,發布了一段視頻,在視頻中公佈了他的身份。

他叫Erfan Azimi,也是SEO從業者,EA Eagle Digital的創辦人。

#

那麼,既然Erfan Azimi提供的文件來自Google的內部「Content API Warehouse」,我們有必要了解什麼是GoogleAPI Content Warehouse,以及這份文件究竟洩露了哪些內容?

Google搜尋「黑盒子」

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

#這次洩密事件似乎來自GitHub,最可信的解釋與Erfan Azimi在通話中告訴Rand的一致:

這些文件可能是無意中被短暫公開了,因為文檔中的許多連結指向私人GitHub倉庫,以及谷歌公司網站上需要特定認證登入的內部頁面。

在2024年3月至5月這段可能是偶然的公開時間裡,API文件被傳播到Hexdocs(索引公開的GitHub倉庫),並被其他人發現並傳播。

讓Rand疑惑的是,他確信其他人也有一份副本,但直到此次爆料發生以前,這份文件並沒有被公開討論。

據前Google開發人員透露,幾乎每個Google團隊都有這樣的文檔,用於解釋各種API屬性和模組,幫助專案人員熟悉可用的資料元素。

該洩漏資訊與GitHub公共倉庫和Google雲端API文件中的其他資訊相符,使用了相同的符號樣式、格式,甚至流程/模組/功能名稱和引用。

「API Content Warehouse」聽起來像個技術術語,但我們可以把它看作是給Google搜尋引擎團隊成員的指南。

它就像圖書館裡的圖書目錄,Google用它來告訴員工有哪些書以及如何取得。

但不同的是,圖書館是公開的,而Google搜尋卻是世界上最神秘、防守森嚴的黑盒子之一。在過去的二十多年中,Google搜尋部門從未發生過如此大規模或如此詳細的洩密事件。

「洩漏」了什麼?

1. 對使用者點擊資料的使用

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

#文件中的一些模組提到了「goodClicks」、“ badClicks」、「lastLongestClicks」、印象、壓扁、未壓扁和獨角獸點擊等功能。這些都與Navboost和Glue有關,看過Google司法部證詞的人可能對這兩個詞並不陌生。

以下是司法部律師Kenneth Dintzer對搜尋品質團隊搜尋副總裁Pandu Nayak的交叉詢問的相關摘錄:

Q. 那麼請提醒我一下,Navboost是否可以追溯到2005 年?

A. 在這個範圍內,甚至可能更早。

Q. 它已經更新過了,它已經不是當年的那個Navboost了?

A. 不是了

Q. 還有一個是glue,對嗎?

A. glue只是Navboost的另一個名稱,包括頁面上的所有其他功能。

Q. 好的。我本來打算稍後再談,但我們現在就可以談。就像我們討論過的那樣,Navboost可以產生網頁結果,對嗎?

A. 是的。

Q. glue還可以處理頁面上所有不是網頁結果的內容,對嗎?

A. 沒錯。

Q. 它們共同幫助找到最終顯示在我們搜尋結果頁上的內容並對其進行排名?

A. 沒錯。它們都是這方面的信號,是的。

這份洩漏的API文件支持Nayak先生的證詞,並與Google的網站品質專利保持一致。

Google似乎有辦法過濾掉他們不想計入排名系統的點擊量,並將他們希望計入排名系統的點擊量納入其中。

他們似乎還能衡量點擊時間(pogo-sticking,指搜尋者點擊結果後,因對找到的答案不滿意而迅速點擊返回按鈕)和印象。

2. 徵用Chrome的點擊流

#Google代表多次表示,它不會使用Chrome資料對頁面進行排名,但洩密文件在有關網站如何在搜尋中顯示的部分中,特別提到了Chrome。

洩露文件的匿名消息來源稱,早在2005年,谷歌就希望獲得數十億網路用戶的完整點擊流,而透過Chrome瀏覽器,他們已經得償所願。

API文件顯示,Google可以使用Chrome瀏覽器計算與單一頁面和整個網域相關的幾類指標。

這份文件介紹了Google如何創建Sitelinks的相關功能,特別有趣。

它顯示了一個名為topUrl的調用,即「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」

#據此可以推測出,Google很可能使用了Chrome 瀏覽器中網頁的點擊次數,並以此來確定網站上最受歡迎或是最重要的URL,進而計算出哪些URL應包含在Sitelinks功能中。

在Google搜尋結果中,它總是能顯示用戶訪問量最大的頁面,這是它透過追蹤數十億Chrome用戶的點擊流得來的。

對於Google的這項行為,網友當然表示不滿。

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

3. 為嚴肅話題創建白名單

我們不難通過「優質旅遊網站」模組得出這樣一個推論——谷歌在旅遊領域存在一個白名單,儘管尚不清楚這是否專門用於谷歌的「旅遊」搜尋選項,還是更廣泛的網路搜尋。

此外,文件中多處提到的「isCovidLocalAuthority」(新冠本地權威)和「isElectionAuthority」(選舉權威)進一步表明,谷歌正在對特定網域進行白名單管理,這些網域可能會在用戶搜尋極具爭議的問題時優先顯示。

例如,在2020年美國總統大選後,某位候選人在沒有證據的情況下聲稱選票被偷,並鼓勵其追隨者衝擊國會山莊。

Google幾乎肯定會成為人們最先搜尋這一事件相關資訊的地方之一,如果他們的搜尋引擎返回的是不準確描述選舉證據的宣傳網站,這可能會直接導致更多的爭論、暴力,甚至是美國民主的終結。

從這個角度上來說,白名單有其現實意義。 Rand Fishkin表示「我們這些希望自由公正的選舉繼續下去的人應該非常感謝谷歌的工程師們在這種情況下使用了白名單。」

4. 採用人工評估網站品質

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

長期以來,Google一直有一個名為EWOK的品質評級平台,我們現在有證據表明,搜尋系統中使用了質量評估者中的某些元素。

Rand Fishkin覺得有趣的是,EWOK品質評估者產生的分數和數據可能會直接參與Google的搜尋系統,而不僅僅是實驗的訓練集。

當然,這些可能“只是用於測試”,但是當瀏覽洩露的文檔時,你會發現當這是真的,它會在註釋和模組詳細信息中明確指出。

其中提到的「每份文件相關性評分」即來自EWOK 的評估,雖然沒有詳細的說明,但我們不難想像,人類對網站的評估到底有多重要。

谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿

文件也提到了「人工評級」(例如來自EWOK 的評級),並指出它們「通常只填充在評估管道中」,這表明它們可能主要是該模組中的訓練資料。

但Rand Fishkin認為這仍然是一個非常重要的角色,行銷人員不應忽視品質評級者對其網站的良好感知和評級有多麼重要。

5. 利用點擊資料來決定權重

#Google將連結索引分為三個等級(低、中、高品質),點選數據用於確定網站屬於哪個等級。

- 如果網站沒有被點擊,就會進入低品質索引,連結也會被忽略

- 如果網站來自可驗證裝置的點擊量很高,它就會進入高質量索引,並且鏈接會傳遞排名信號

一旦鏈接因為屬於更高層次的索引而成為“可信”鏈接,它就可以流動PageRank和錨點,或被垃圾連結系統過濾/刪除。

來自低品質連結索引的連結不會損害網站的排名,它們只會被忽略。

Google的搜尋演算法可能是網路上最重要的系統,它決定了不同網站的生死存亡以及我們在網路上所能看到的內容。

可它到底是如何對網站進行排名的,長期以來一直是個謎,記者、研究人員和從事SEO工作的人們都在不斷拼湊這個謎題的答案。

在這次洩漏事件中,Google依舊保持沉默,似乎會讓這個謎題長久存在下去。

但這次谷歌有史以來最嚴重的洩密,還是撕開了一個裂縫,讓人們對搜尋的工作原理有了前所未有的了解。

以上是谷歌搜尋演算法內幕被扒,2500頁鉅細文件實名洩密!搜尋排名謊言被揭穿的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板