Comment utiliser le langage Go et Redis pour développer des robots distribués-Golang-php.cn

Comment utiliser le langage Go et Redis pour développer des robots distribués

PHPz

Libérer： 2023-10-27 19:34:52

original

823 Les gens l'ont consulté

Comment utiliser le langage Go et Redis pour développer des robots distribués

Comment utiliser le langage Go et Redis pour développer des robots d'exploration distribués

Introduction :
Avec le développement rapide de la technologie Internet, les robots d'exploration Web sont de plus en plus utilisés dans des domaines tels que l'exploration de données, l'optimisation des moteurs de recherche et la collecte d'informations. Parmi eux, les robots d'exploration distribués peuvent utiliser pleinement les ressources du cluster et améliorer l'efficacité et la stabilité de l'exploration. Cet article expliquera comment utiliser le langage Go et Redis pour développer un robot d'exploration distribué simple, visant à aider les lecteurs à mieux comprendre et appliquer les technologies associées.

1. Préparation
Avant de commencer l'exemple de cet article, nous devons effectuer les préparations suivantes :

Installer l'environnement de développement du langage Go : Veuillez vous assurer que votre ordinateur a correctement installé l'environnement de développement du langage Go et configuré l'environnement correspondant. variables.
Installer Redis : Redis est une base de données en mémoire open source qui peut être utilisée pour stocker des informations telles que la file d'attente des tâches et les résultats du programme d'exploration. Veuillez installer Redis en fonction du type et de la version de votre système d'exploitation, puis démarrez le service Redis.

2. Structure du projet et exemples de code
Nous utiliserons le langage Go pour écrire un programme d'exploration distribué simple. Voici la structure de répertoire de base du projet :

crawler
- main.go
- worker. go
- conn.go

main.go
Créez un fichier appelé main.go et écrivez le code suivant :

package main

import (
    "fmt"
    "net/http"
    "strconv"
)

func main() {
    // 创建一个任务队列，用来存储待爬取的URL
    taskQueue := make(chan string)
    go func() {
        // 将待爬取的URL加入到任务队列中
        for i := 1; i <= 10; i++ {
            url := "http://example.com/page" + strconv.Itoa(i)
            taskQueue <- url
        }
        close(taskQueue)
    }()

    // 创建一定数量的爬虫协程，并从任务队列中获取URL进行爬取
    for i := 0; i < 5; i++ {
        go func() {
            for url := range taskQueue {
                resp, err := http.Get(url)
                if err != nil {
                    fmt.Println("Failed to crawl", url)
                } else {
                    fmt.Println("Crawled", url)
                    // TODO: 解析和处理网页内容
                }
            }
        }()
    }

    // 阻塞主进程
    select {}
}

Copier après la connexion

Dans main.go, nous avons créé une file d'attente de tâches taskQueue et l'avons placée dans un Add l'URL à explorer vers une goroutine distincte. Ensuite, nous avons créé plusieurs coroutines de robot (5 ici) à explorer en récupérant l'URL de la file d'attente des tâches.

worker.go
Ensuite, nous créons un fichier nommé Worker.go et écrivons le code suivant :

package main

import (
    "fmt"
    "github.com/go-redis/redis"
)

func main() {
    // 连接Redis数据库
    client := redis.NewClient(&redis.Options{
        Addr:     "localhost:6379",
        Password: "",
        DB:       0,
    })

    // 创建一个爬虫任务队列
    taskQueue := make(chan string)

    // 监听Redis的任务队列，并将任务URL加入到爬虫任务队列中
    go func() {
        for {
            task, err := client.BLPop(0, "task_queue").Result()
            if err == nil {
                url := task[1]
                taskQueue <- url
            }
        }
    }()

    // 创建一定数量的爬虫协程，并从爬虫任务队列中获取URL进行爬取
    for i := 0; i < 5; i++ {
        go func() {
            for url := range taskQueue {
                fmt.Println("Crawling", url)
                // TODO: 真正的爬虫逻辑
                // 将爬取结果保存到Redis或其他存储介质中
            }
        }()
    }

    // 阻塞主进程
    select {}
}

Copier après la connexion

Dans Worker.go, nous nous connectons à la base de données Redis et créons une file d'attente de tâches de robot taskQueue. Ensuite, nous écoutons la file d'attente des tâches Redis dans une goroutine et ajoutons l'URL de la tâche à la file d'attente des tâches du robot. Enfin, nous avons créé plusieurs coroutines de robot d'exploration (5 ici) à explorer en obtenant l'URL de la file d'attente des tâches du robot.

conn.go
Créez un fichier nommé conn.go et écrivez le code suivant :

package main

import (
    "github.com/go-redis/redis"
)

// NewRedisClient 创建一个Redis客户端连接
func NewRedisClient() *redis.Client {
    client := redis.NewClient(&redis.Options{
        Addr:     "localhost:6379",
        Password: "",
        DB:       0,
    })
    return client
}

// AddTask 将任务URL加入到Redis的任务队列中
func AddTask(client *redis.Client, url string) error {
    err := client.RPush("task_queue", url).Err()
    if err != nil {
        return err
    }
    return nil
}

Copier après la connexion

Dans conn.go, nous encapsulons la méthode NewRedisClient() pour nous connecter à la base de données Redis et ajoutons l'URL de la tâche à Redis. méthode AddTask() dans la file d’attente des tâches.

3. Exécutez le programme
Après avoir terminé l'écriture du code ci-dessus, nous pouvons exécuter le programme. Ouvrez d'abord une fenêtre de terminal, entrez dans le répertoire racine du projet et exécutez la commande suivante pour démarrer la coroutine du robot :

go run main.go

Copier après la connexion

Ensuite, ouvrez une nouvelle fenêtre de terminal, entrez également dans le répertoire racine du projet et exécutez la commande suivante pour démarrer la coroutine de travail. :

go run worker.go

Copier après la connexion

4. Résumé
Grâce aux exemples de code ci-dessus, nous avons appris à utiliser le langage Go et Redis pour développer un robot d'exploration distribué simple. Les principales étapes comprennent : la création d'une file d'attente de tâches, la création de plusieurs coroutines de robot d'exploration, la surveillance de la file d'attente de tâches, l'obtention d'URL de la file d'attente de tâches pour l'exploration, etc. Dans le même temps, nous avons également appris à utiliser Redis comme outil de mise en œuvre de file d'attente de tâches et à obtenir des tâches de la file d'attente de tâches via la commande BLPop de Redis. J'espère que cet article pourra vous aider à comprendre et à pratiquer les robots d'exploration distribués.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!