In den ersten beiden Artikeln wurde analysiert, warum ich Mobikes Schnittstelle und als Ergebnis von Daten genutzt habe Analyse: Dieser Artikel stellt ausführbaren Quellcode zum Lernen bereit.
Wenn Sie nicht die Geduld haben, den Artikel zu lesen, schreiben Sie bitte direkt:Dieser Crawler dient nur zu Lern- und Forschungszwecken Davon sind Sie selbst verantwortlich.
git clone https://github.com/derekhe/mobike-crawler python3 crawler.py
Modules – Proxy-Modul
SQLite gespeichert 3-Datenbank und dann in eine CSV-Datei exportiert, um Platz zu sparen.
MobikesAPI gibt Fahrräder in einem quadratischen Bereich zurück, indem ich sie Stück für Stück verschiebe .
links,oben,rechts,unten definiert den Kriechbereich, der sich derzeit innerhalb des Chengdu City Ring Expressway befindet Bereich südlich bis Nanhu. offset definiert das Crawling-Intervall. Es basiert jetzt auf 0.002 und kann innerhalb von 15 Minuten auf dem DigitalOcean 5$-Server gecrawlt werden >
Dann wurden 250 Threads gestartet, die mich fragten, warum ich keine Coroutinen verwendet habe, hmmm~~ Ich habe es damals noch nicht gelernt~~~ Es ist tatsächlich möglich und vielleicht ist es effizienter . Hoch.def start(self): left = 30.7828453209 top = 103.9213455517 right = 30.4781772402 bottom = 104.2178123382 offset = 0.002 if os.path.isfile(self.db_name): os.remove(self.db_name) try: with sqlite3.connect(self.db_name) as c: c.execute('''CREATE TABLE mobike (Time DATETIME, bikeIds VARCHAR(12), bikeType TINYINT,distId INTEGER,distNum TINYINT, type TINYINT, x DOUBLE, y DOUBLE)''') except Exception as ex: pass
Da die Daten dedupliziert werden müssen, um doppelte Teile zwischen kleinen quadratischen Bereichen zu entfernen, ist der API-Code hier. Erstellen Sie einfach einen wenige
Variablenund es ist sehr einfach.
executor = ThreadPoolExecutor(max_workers=250) print("Start") self.total = 0 lat_range = np.arange(left, right, -offset) for lat in lat_range: lon_range = np.arange(top, bottom, offset) for lon in lon_range: self.total += 1 executor.submit(self.get_nearby_bikes, (lat, lon)) executor.shutdown() self.group_data()
Abschließend möchten Sie vielleicht fragen: Werden häufig verwendete IP-Adressen nicht blockiert? Tatsächlich gibt es bei Mobike Beschränkungen für die IP-Zugriffsgeschwindigkeit, aber der Weg, sie zu knacken, ist sehr einfach, nämlich die Verwendung einer großen Anzahl von Proxys. Ich habe einen Agentenpool mit im Grunde mehr als 8.000 Agenten pro Tag. Rufen Sie diesen Proxy-Pool direkt in ProxyProvider ab und stellen Sie eine Auswahlfunktion
bereit, um die 50 besten Proxys zufällig auszuwählen. Bitte beachten Sie, dass mein Proxy-Pool stündlichdef get_nearby_bikes(self, args): try: url = "https://mwx.mobike.com/mobike-api/rent/nearbyBikesInfo.do" payload = "latitude=%s&longitude=%s&errMsg=getMapCenterLocation" % (args[0], args[1]) headers = { 'charset': "utf-8", 'platform': "4", "referer":"https://servicewechat.com/wx40f112341ae33edb/1/", 'content-type': "application/x-www-form-urlencoded", 'user-agent': "MicroMessenger/6.5.4.1000 NetType/WIFI Language/zh_CN", 'host': "mwx.mobike.com", 'connection': "Keep-Alive", 'accept-encoding': "gzip", 'cache-control': "no-cache" } self.request(headers, payload, args, url) except Exception as ex: print(ex)
wird, die im Code bereitgestellte Proxy-Liste von
jsonblob jedoch nur ein Beispiel ist und das meiste davon nach einiger Zeit ungültig sein sollte Zeit. . Hier kommt ein Proxy-Scoring-Mechanismus zum Einsatz. Anstatt Agenten direkt nach dem Zufallsprinzip auszuwählen, habe ich die Agenten nach ihrer Punktzahl sortiert. Bei jeder erfolgreichen Anfrage werden Punkte gutgeschrieben, bei einer fehlerhaften Anfrage werden Punkte abgezogen. Auf diese Weise kann in kurzer Zeit der Agent mit der besten Geschwindigkeit und Qualität ausgewählt werden. Sie können es speichern und bei Bedarf beim nächsten Mal verwenden. Wählen Sie bei der tatsächlichen Verwendung den Proxy über ProxyProvider.pick() aus und verwenden Sie ihn dann. Wenn es Probleme mit dem Proxy gibt, verwenden Sie direkt Proxy.fatal_error(), um die Punktzahl zu senken, sodass dieser Proxy in Zukunft nicht mehr ausgewählt wird.
Okay, das ist im Grunde alles~~~ Studieren Sie die anderen Codes selbst~~~
Das obige ist der detaillierte Inhalt vonAnalyse des Mobike-Crawler-Quellcodes. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!