Heim Backend-Entwicklung Python-Tutorial Analyse des Mobike-Crawler-Quellcodes

Analyse des Mobike-Crawler-Quellcodes

Apr 04, 2017 am 10:40 AM
Mobike

In den ersten beiden Artikeln wurde analysiert, warum ich Mobikes Schnittstelle und als Ergebnis von Daten genutzt habe Analyse: Dieser Artikel stellt ausführbaren Quellcode zum Lernen bereit.

Dieser Crawler dient nur zu Lern- und Forschungszwecken Davon sind Sie selbst verantwortlich.

Wenn Sie nicht die Geduld haben, den Artikel zu lesen, schreiben Sie bitte direkt:

git clone https://github.com/derekhe/mobike-crawler
python3 crawler.py
Nach dem Login kopieren
Bitte vergessen Sie nicht, ihm einen Stern zu geben wenn es Ihnen gefällt!

Verzeichnisstruktur

  • Analyse - Jupiter für Datenanalyse

  • Zufluss -importer – in influxdb importieren, aber ich habe es vorher nicht gut gemacht

  • Modules – Proxy-Modul

  • web – grafisches Echtzeit-Anzeigemodul, es war nur zum Lernen

    Reagieren Bitte sehen Sie sich die Ergebnisse hier an

  • crawler.py – Crawler-Kerncode

  • importToDb.py – Import in die Postgres-Datenbank zur Analyse

  • sql.sql – Tabellen-SQL erstellen

  • start.sh – Kontinuierlich ausgeführtes Skript

Idee

Der Kerncode wird in crawler.py platziert, die Daten werden zunächst im

SQLite gespeichert 3-Datenbank und dann in eine CSV-Datei exportiert, um Platz zu sparen.

Mobikes

API gibt Fahrräder in einem quadratischen Bereich zurück, indem ich sie Stück für Stück verschiebe .

links,

oben,rechts,unten definiert den Kriechbereich, der sich derzeit innerhalb des Chengdu City Ring Expressway befindet Bereich südlich bis Nanhu. offset definiert das Crawling-Intervall. Es basiert jetzt auf 0.002 und kann innerhalb von 15 Minuten auf dem DigitalOcean 5$-Server gecrawlt werden >

Dann wurden 250 Threads gestartet, die mich fragten, warum ich keine Coroutinen verwendet habe, hmmm~~ Ich habe es damals noch nicht gelernt~~~ Es ist tatsächlich möglich und vielleicht ist es effizienter . Hoch.
    def start(self):
        left = 30.7828453209
        top = 103.9213455517
        right = 30.4781772402
        bottom = 104.2178123382

        offset = 0.002

        if os.path.isfile(self.db_name):
            os.remove(self.db_name)

        try:
            with sqlite3.connect(self.db_name) as c:
                c.execute('''CREATE TABLE mobike
                    (Time DATETIME, bikeIds VARCHAR(12), bikeType TINYINT,distId INTEGER,distNum TINYINT, type TINYINT, x DOUBLE, y DOUBLE)''')
        except Exception as ex:
            pass
Nach dem Login kopieren

Da die Daten dedupliziert werden müssen, um doppelte Teile zwischen kleinen quadratischen Bereichen zu entfernen, ist der API-Code hier. Erstellen Sie einfach einen wenige

Variablen

und es ist sehr einfach.

        executor = ThreadPoolExecutor(max_workers=250)
        print("Start")
        self.total = 0
        lat_range = np.arange(left, right, -offset)
        for lat in lat_range:
            lon_range = np.arange(top, bottom, offset)
            for lon in lon_range:
                self.total += 1
                executor.submit(self.get_nearby_bikes, (lat, lon))

        executor.shutdown()
        self.group_data()
Nach dem Login kopieren

Abschließend möchten Sie vielleicht fragen: Werden häufig verwendete IP-Adressen nicht blockiert? Tatsächlich gibt es bei Mobike Beschränkungen für die IP-Zugriffsgeschwindigkeit, aber der Weg, sie zu knacken, ist sehr einfach, nämlich die Verwendung einer großen Anzahl von Proxys. Ich habe einen Agentenpool mit im Grunde mehr als 8.000 Agenten pro Tag. Rufen Sie diesen Proxy-Pool direkt in ProxyProvider ab und stellen Sie eine Auswahlfunktion

bereit, um die 50 besten Proxys zufällig auszuwählen. Bitte beachten Sie, dass mein Proxy-Pool stündlich
    def get_nearby_bikes(self, args):
        try:
            url = "https://mwx.mobike.com/mobike-api/rent/nearbyBikesInfo.do"

            payload = "latitude=%s&longitude=%s&errMsg=getMapCenterLocation" % (args[0], args[1])

            headers = {
                'charset': "utf-8",
                'platform': "4",
                "referer":"https://servicewechat.com/wx40f112341ae33edb/1/",
                'content-type': "application/x-www-form-urlencoded",
                'user-agent': "MicroMessenger/6.5.4.1000 NetType/WIFI Language/zh_CN",
                'host': "mwx.mobike.com",
                'connection': "Keep-Alive",
                'accept-encoding': "gzip",
                'cache-control': "no-cache"
            }

            self.request(headers, payload, args, url)
        except Exception as ex:
            print(ex)
Nach dem Login kopieren
aktualisiert

wird, die im Code bereitgestellte Proxy-Liste von

json

blob jedoch nur ein Beispiel ist und das meiste davon nach einiger Zeit ungültig sein sollte Zeit. . Hier kommt ein Proxy-Scoring-Mechanismus zum Einsatz. Anstatt Agenten direkt nach dem Zufallsprinzip auszuwählen, habe ich die Agenten nach ihrer Punktzahl sortiert. Bei jeder erfolgreichen Anfrage werden Punkte gutgeschrieben, bei einer fehlerhaften Anfrage werden Punkte abgezogen. Auf diese Weise kann in kurzer Zeit der Agent mit der besten Geschwindigkeit und Qualität ausgewählt werden. Sie können es speichern und bei Bedarf beim nächsten Mal verwenden. Wählen Sie bei der tatsächlichen Verwendung den Proxy über ProxyProvider.pick() aus und verwenden Sie ihn dann. Wenn es Probleme mit dem Proxy gibt, verwenden Sie direkt Proxy.fatal_error(), um die Punktzahl zu senken, sodass dieser Proxy in Zukunft nicht mehr ausgewählt wird.

Okay, das ist im Grunde alles~~~ Studieren Sie die anderen Codes selbst~~~

Das obige ist der detaillierte Inhalt vonAnalyse des Mobike-Crawler-Quellcodes. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Was sind reguläre Ausdrücke? Was sind reguläre Ausdrücke? Mar 20, 2025 pm 06:25 PM

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

See all articles