Setiap pakar SEO yang terlibat dalam mengikis data mengetahui bahawa CAPTCHA ialah halangan mencabar yang menyekat akses kepada maklumat yang diperlukan. Tetapi adakah ia patut dielakkan sama sekali, atau adakah lebih baik untuk belajar cara memintasnya? Mari kita pecahkan apa itu CAPTCHA, sebab ia digunakan secara meluas dan cara pakar SEO boleh memintasnya menggunakan contoh sebenar dan kaedah yang berkesan.
Setiap profesional SEO telah menemui CAPTCHA. Jika belum, mereka bukan profesional atau salah faham dengan akronim SEO (mungkin mengelirukan dengan SMM atau CEO), atau mereka baru memulakan kerja yang mencabar ini.
CAPTCHA (“Ujian Turing Awam Automatik Sepenuhnya Untuk Memberitahu Komputer dan Manusia Berpisah”) ialah cara untuk melindungi tapak daripada tindakan automatik, seperti pengikisan data atau serangan bot. CAPTCHA diterjemahkan sebagai “Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей.”
Seorang boleh menafikan selama berabad-abad bahawa CAPTCHA dinilai berlebihan dan berpendapat bahawa ia tidak bernilai sumber yang ketara. Tetapi hujah sedemikian runtuh apabila anda perlu mendapatkan data daripada enjin carian, seperti Yandex, tanpa sebarang idea tentang permintaan XML... Atau, sebagai contoh, jika pelanggan ingin mengikis semua Amazon dan membayar dengan baik... Tidak timbul persoalan: "Jangan katakan lagi…"
Situasinya tidak semudah yang disangka. Melindungi tapak daripada pengikisan data boleh menjadi sukar, terutamanya jika ia merupakan projek bukan komersial atau "tapak hamster". Selalunya, tiada masa mahupun, yang paling penting, keinginan untuk memperuntukkan sumber kepada CAPTCHA. Tetapi ia adalah cerita yang berbeza jika anda pemilik portal utama yang membawa masuk berjuta-juta. Maka wajar untuk mempertimbangkan perlindungan skala penuh, termasuk langkah untuk mencegah serangan DDoS atau pesaing yang tidak jujur.
Sebagai contoh, Amazon menggunakan tiga jenis CAPTCHA, setiap satu muncul dalam situasi yang berbeza, dan mereka menukar reka bentuk secara rawak supaya alat automasi dan pengikis tidak boleh bergantung pada kaedah yang sudah lapuk. Ini menjadikan memintas perlindungan mereka rumit dan mahal.
Jika kita bercakap tentang juruweb yang lebih kecil, mereka juga memahami bahawa CAPTCHA yang kompleks boleh menghalang pengguna sebenar, terutamanya jika halangan di tapak terlalu tinggi. Pada masa yang sama, meninggalkan tapak tanpa perlindungan adalah tidak bijak — ia akan menarik walaupun bot paling bodoh, yang mungkin tidak memintas CAPTCHA tetapi masih boleh melakukan tindakan besar-besaran.
Pemilik tapak moden cuba mencari keseimbangan dengan menggunakan penyelesaian universal, seperti reCAPTCHA atau hCaptcha. Ini melindungi tapak daripada bot mudah tanpa menyebabkan kesulitan yang serius kepada pengguna. CAPTCHA yang lebih kompleks hanya digunakan apabila tapak tersebut menghadapi serangan bot besar-besaran.
Mari kita pertimbangkan soalan dari perspektif pakar SEO: mengapa dan untuk tujuan apakah mereka perlu memintas CAPTCHA?
Pintas CAPTCHA mungkin diperlukan untuk tugas paling asas — menganalisis kedudukan dalam enjin carian. Sudah tentu, ini tersedia melalui perkhidmatan pihak ketiga yang mengenakan bayaran untuk pemantauan kedudukan harian. Selain itu, anda juga perlu membayar untuk perkhidmatan pengecaman CAPTCHA pihak ketiga.
CAPTCHA juga mungkin relevan apabila menyelidik tapak pesaing. Memintas CAPTCHA di tapak pesaing selalunya lebih mudah daripada mengumpulkan kedudukan carian memandangkan tahap perlindungan berbeza.
Mengautomasikan tugas rutin ialah topik yang lebih khusus. Bukan semua orang menggunakannya, tetapi untuk pakar SEO yang berdedikasi, ia boleh menjadi alat yang berharga untuk menjimatkan masa dan usaha.
Secara amnya, adalah penting untuk mengira keberkesanan kos — adakah lebih murah untuk membayar perkhidmatan pemantauan kedudukan dan perkhidmatan pengiktirafan CAPTCHA, atau untuk mencipta penyelesaian anda sendiri dan mengurangkan kos? Sudah tentu, jika ia hanya satu atau dua projek dan pelanggan membayar, pilihan terakhir kedengaran terlalu intensif buruh. Tetapi jika anda memiliki berbilang projek dan membayar semuanya sendiri… Ia patut difikirkan.
Mari terokai kaedah yang memerlukan sedikit usaha daripada sekadar memasukkan kunci API dalam Pemungut Kunci. Anda memerlukan pengetahuan yang lebih mendalam daripada sekadar mengetahui cara mencari kunci API pada halaman utama perkhidmatan dan memasukkannya ke dalam medan yang betul.
Kaedah yang paling popular ialah menghantar CAPTCHA kepada perkhidmatan khusus (seperti 2Captcha atau RuCaptcha), yang mengembalikan penyelesaian sedia. Perkhidmatan ini memerlukan pembayaran setiap CAPTCHA yang diselesaikan.
Berikut ialah contoh kod standard untuk menyelesaikan reCAPTCHA V2 dalam Python:
import requests import time API_KEY = 'YOUR_2CAPTCHA_KEY' SITE_KEY = 'YOUR_SITE_KEY' PAGE_URL = 'https://example.com' def get_captcha_solution(): captcha_id_response = requests.post("http://2captcha.com/in.php", data={ 'key': API_KEY, 'method': 'userrecaptcha', 'googlekey': SITE_KEY, 'pageurl': PAGE_URL, 'json': 1 }).json() if captcha_id_response['status'] != 1: print(f"Error: {captcha_id_response['request']}") return None captcha_id = captcha_id_response['request'] print(f"CAPTCHA sent. ID: {captcha_id}") for attempt in range(30): time.sleep(5) result = requests.get("http://2captcha.com/res.php", params={ 'key': API_KEY, 'action': 'get', 'id': captcha_id, 'json': 1 }).json() if result['status'] == 1: print(f"CAPTCHA solved: {result['request']}") return result['request'] elif result['request'] == 'CAPCHA_NOT_READY': print(f"Waiting for solution... attempt {attempt + 1}/30") else: print(f"Error: {result['request']}") return None return None captcha_solution = get_captcha_solution() if captcha_solution: print('CAPTCHA solution:', captcha_solution) else: print('Solution failed.')
Kod ini membantu anda menyerahkan CAPTCHA secara automatik untuk menyelesaikan dan menerima token yang diperlukan untuk memintas perlindungan.
Kaedah kedua melibatkan alamat IP berputar menggunakan proksi kediaman. Ini membolehkan anda mengakses tapak daripada setiap proksi baharu seolah-olah anda adalah orang yang berbeza, mengurangkan kemungkinan pengaktifan CAPTCHA.
Berikut ialah contoh kod dengan putaran proksi dalam Python:
import requests from itertools import cycle import time import urllib.parse # List of proxies with individual logins and passwords proxies_list = [ {"proxy": "2captcha_proxy_1:port", "username": "user1", "password": "pass1"}, {"proxy": "2captcha_proxy_2:port", "username": "user2", "password": "pass2"}, {"proxy": "2captcha_proxy_3:port", "username": "user3", "password": "pass3"}, # Add more proxies as needed ] # Proxy rotation cycle proxy_pool = cycle(proxies_list) # Target URL to work with url = "https://example.com" # Headers to simulate a real user headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:129.0) Gecko/20100101 Firefox/129.0" } # Sending several requests with proxy rotation for i in range(5): # Specify the number of requests needed proxy_info = next(proxy_pool) proxy = proxy_info["proxy"] username = urllib.parse.quote(proxy_info["username"]) password = urllib.parse.quote(proxy_info["password"]) # Create a proxy with authorization proxy_with_auth = f"http://{username}:{password}@{proxy}" try: response = requests.get( url, headers=headers, proxies={"http": proxy_with_auth, "https": proxy_with_auth}, timeout=10 ) # Check response status if response.status_code == 200: print(f"Request {i + 1} via proxy {proxy} was successful.") else: print(f"Request {i + 1} ended with status code {response.status_code}") except requests.exceptions.RequestException as e: print(f"Error with proxy {proxy}: {e}") # Delay between requests for natural behavior time.sleep(2)
Contoh ini menunjukkan cara menggunakan penggiliran proksi untuk membuat permintaan ke tapak sasaran, mengurangkan risiko disekat.
Kaedah ketiga melibatkan penggunaan pelayar tanpa kepala seperti Selenium untuk mensimulasikan tindakan pengguna sebenar. Pendekatan ini mungkin lebih intensif buruh tetapi juga lebih berkesan.
Berikut ialah contoh kod menggunakan Selenium dengan putaran proksi:
import requests import time API_KEY = 'YOUR_2CAPTCHA_KEY' SITE_KEY = 'YOUR_SITE_KEY' PAGE_URL = 'https://example.com' def get_captcha_solution(): captcha_id_response = requests.post("http://2captcha.com/in.php", data={ 'key': API_KEY, 'method': 'userrecaptcha', 'googlekey': SITE_KEY, 'pageurl': PAGE_URL, 'json': 1 }).json() if captcha_id_response['status'] != 1: print(f"Error: {captcha_id_response['request']}") return None captcha_id = captcha_id_response['request'] print(f"CAPTCHA sent. ID: {captcha_id}") for attempt in range(30): time.sleep(5) result = requests.get("http://2captcha.com/res.php", params={ 'key': API_KEY, 'action': 'get', 'id': captcha_id, 'json': 1 }).json() if result['status'] == 1: print(f"CAPTCHA solved: {result['request']}") return result['request'] elif result['request'] == 'CAPCHA_NOT_READY': print(f"Waiting for solution... attempt {attempt + 1}/30") else: print(f"Error: {result['request']}") return None return None captcha_solution = get_captcha_solution() if captcha_solution: print('CAPTCHA solution:', captcha_solution) else: print('Solution failed.')
Contoh ini menunjukkan cara Selenium boleh digunakan untuk mensimulasikan pengguna sebenar dengan menatal dan berinteraksi dengan elemen pada tapak.
Kesimpulannya, jika anda mempunyai sedikit masa dan ingin bekerja melalui kod, menggabungkan kaedah seperti putaran proksi dan pelayar tanpa kepala boleh menghasilkan hasil yang sangat baik. Jika anda lebih suka memudahkan perkara, gunakan perkhidmatan yang menyediakan alat siap sedia untuk tugas itu. Walau bagaimanapun, adalah penting untuk memilih alat yang paling sesuai dengan teliti untuk setiap tugas tertentu.
Semoga anda mendapat akses tanpa CAPTCHA!
Atas ialah kandungan terperinci Teknik Pintasan CAPTCHA Lanjutan untuk Pakar SEO dengan Contoh Kod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!