Gunakan Hadoop dalam bahasa Go untuk mencapai pemprosesan data besar yang cekap-Golang-php.cn

Rumah

pembangunan bahagian belakang

Golang

Gunakan Hadoop dalam bahasa Go untuk mencapai pemprosesan data besar yang cekap

王林

Jun 16, 2023 am 09:07 AM

pergi bahasa pemprosesan data besar hadoop

Dengan peningkatan jumlah data, pemprosesan data besar telah menjadi salah satu topik yang paling membimbangkan dalam industri hari ini. Sebagai rangka kerja pengkomputeran teragih sumber terbuka, Hadoop telah menjadi standard de facto untuk pemprosesan data besar. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Hadoop dalam bahasa Go untuk mencapai pemprosesan data besar yang cekap.

Mengapa menggunakan Hadoop dalam bahasa Go?

Pertama sekali, bahasa Go ialah bahasa pengaturcaraan baharu yang dibangunkan oleh Google Ia mempunyai keupayaan pengurusan memori dan pengaturcaraan serentak yang cekap, mudah untuk ditulis dan mempunyai kelajuan kompilasi yang pantas. Ia sangat sesuai untuk membangunkan pelayan yang cekap program. Kedua, Hadoop menyediakan keupayaan pemprosesan data teragih yang berkuasa dan boleh memproses sejumlah besar data dengan cekap Ia adalah rangka kerja perisian percuma sumber terbuka yang boleh membina sistem pengkomputeran berskala besar dengan cepat.

Bagaimana untuk menggunakan Hadoop dalam bahasa Go?

Bahasa Go sendiri tidak menyokong pengaturcaraan Hadoop asli, tetapi kami boleh menggunakan ciri Cgo bahasa Go untuk memanggil antara muka C/C++ yang disediakan oleh Hadoop untuk melengkapkan akses dan pengendalian Hadoop. Cgo ialah ciri yang disediakan oleh bahasa Go yang membenarkan pengaturcara memanggil program C/C++ dalam bahasa Go untuk menyelesaikan tugasan tertentu.

Pertama, kita perlu memasang Hadoop dan perpustakaan pembangunan C/C++ yang sepadan secara tempatan. Untuk pengedaran Linux biasa, anda boleh memasang terus perpustakaan bergantung yang berkaitan melalui pengurus pakej, seperti libhadoop2.10.1, hadoop-c++-libs, dsb. Jika anda berada di bawah sistem Windows, anda boleh menyusun perpustakaan C/C++ yang sepadan melalui rantai alat penyusunan di bawah Windows.

Seterusnya, gunakan ciri Cgo dalam program bahasa Go untuk memulakan tugas pengkomputeran yang diedarkan Hadoop. Pelaksanaan khusus adalah seperti berikut:

package main

// #include "hdfs.h"
import "C"

import (
    "fmt"
    "unsafe"
)

func main() {
    const hadoopConfDir = "/etc/hadoop/conf"
    const hadoopAddress = "hdfs://localhost:9000"
    var buf [64]C.char

    C.hdfsGetDefaultConfigPath(&buf[0], 64)
    confDir := C.GoString(&buf[0])
    if confDir == "" {
        confDir = hadoopConfDir
    }

    fs := C.hdfsNew(hadoopAddress, "default")
    defer C.hdfsDisconnect(fs)

    if fs == nil {
        panic(fmt.Errorf("Could not connect to Hadoop Namenode at: %s", hadoopAddress))
    }

    basePath := C.CString("/")
    defer C.free(unsafe.Pointer(basePath))

    fileInfo, _ := C.hdfsListDirectory(fs, basePath, nil)

    for i := 0; fileInfo[i] != nil; i++ {
        fileInfoEntry := fileInfo[i]
        fmt.Println(C.GoString(fileInfoEntry.mName))
    }

    C.hdfsFreeFileInfo(fileInfo, 1)
}

Salin selepas log masuk

Kod di atas menunjukkan cara memulakan tugas pengkomputeran teragih Hadoop dalam program bahasa Go. Antaranya, kita perlu cuba menggunakan fungsi C hdfsGetDefaultConfigPath yang disediakan dalam perpustakaan libhdfs dalam program untuk mendapatkan laluan lalai fail konfigurasi Hadoop. Jika pemerolehan gagal, laluan yang ditentukan oleh pemalar hadoopConfDir digunakan sebagai laluan ke fail konfigurasi.

Seterusnya, kami menggunakan fungsi hdfsNew untuk mencipta objek sistem fail Hadoop fs Jika penciptaan gagal, ini bermakna pelayan Hadoop tidak boleh disambungkan dan program akan ralat serta-merta. Seterusnya, kami melaksanakan fungsi hdfsListDirectory untuk menyenaraikan semua fail dan direktori dalam direktori akar sistem fail Hadoop dan mengeluarkannya dalam konsol.

Akhir sekali, kita perlu melepaskan memori secara manual dan memanggil fungsi hdfsDisconnect untuk menutup objek sistem fail hdfs. Ambil perhatian bahawa untuk memperuntukkan dan melepaskan memori Cgo dengan betul, apabila menggunakan penunjuk objek bahasa C, anda perlu menggunakan C.CString atau C.GoString dan fungsi khusus Cgo lain untuk menukar rentetan bahasa Go kepada rentetan bahasa C semasa menggunakan C. fungsi bebas melepaskan ruang memori C yang diminta.

Menggunakan Hadoop untuk pengisihan data besar

Dalam pemprosesan data berskala besar sebenar, selalunya perlu mengisih data untuk mengoptimumkan prestasi pemprosesan program. Demonstrasi berikut menggunakan Hadoop dalam bahasa Go untuk pengisihan data besar:

package main

// #include "hdfs.h"
import "C"

import (
    "fmt"
    "unsafe"
)

func main() {
    const hadoopAddress = "hdfs://localhost:9000"
    var buf [64]C.char

    C.hdfsGetDefaultConfigPath(&buf[0], 64)
    confDir := C.GoString(&buf[0])
    if confDir == "" {
        panic(fmt.Errorf("Could not find Hadoop configuration"))
    }

    fs := C.hdfsNew(hadoopAddress, "default")
    defer C.hdfsDisconnect(fs)

    const inputPath = "/input"
    const outputPath = "/output"

    inputPathC := C.CString(inputPath)
    outputPathC := C.CString(outputPath)
    defer C.free(unsafe.Pointer(inputPathC))
    defer C.free(unsafe.Pointer(outputPathC))

    sortJobConf := C.hdfsNewJobConf()
    defer C.hdfsDeleteJobConf(sortJobConf)

    C.hdfsConfSet(sortJobConf, C.CString("mapred.reduce.tasks"), C.CString("1"))

    const mapperFunc = `package main
      import (
          "bufio"
          "fmt"
          "os"
          "sort"
          "strings"
      )

      func main() {
          scanner := bufio.NewScanner(os.Stdin)
          var lines []string

          for scanner.Scan() {
              lines = append(lines, scanner.Text())
          }

          sort.Strings(lines)

          for _, str := range lines {
              fmt.Println(str)
          }
      }
    `

    const reducerFunc = ""

    C.hdfsRunStreaming(fs, sortJobConf, 1,
        &inputPathC, 1,
        &outputPathC, 1,
        (*C.char)(unsafe.Pointer(&[]byte(mapperFunc)[0])), C.uint(len(mapperFunc)),
        (*C.char)(unsafe.Pointer(&[]byte(reducerFunc)[0])), C.uint(len(reducerFunc)),
    )

    fmt.Println("Finished sorting")
}

Salin selepas log masuk

Kod di atas menunjukkan kaedah menggunakan Hadoop dalam bahasa Go untuk pengisihan data besar. Mula-mula, kami mencipta objek conf kerja Hadoop sortJobConf dan menetapkan parameter mapred.reduce.tasks mengikut keperluan Di sini ia ditetapkan kepada 1, yang bermaksud hanya satu tugasan pengurangan dilaksanakan.

Seterusnya, kami mentakrifkan fungsi mapperFunc untuk membaca fail input dan mengisihnya mengikut saiz rentetan. reducerFunc ialah fungsi kosong, menunjukkan bahawa tiada langkah pengurangan dalam tugas ini.

Akhir sekali, kami menggunakan fungsi hdfsRunStreaming untuk memulakan pengiraan aliran Hadoop, memasukkan sortJobConf sebagai parameter dan menentukan laluan fail input dan output serta fungsi pemeta dan pengurang untuk menyelesaikan tugas data menyusun.

Ringkasan

Artikel ini memperkenalkan secara ringkas cara menggunakan Hadoop dalam bahasa Go untuk pemprosesan data besar. Mula-mula, kami memperkenalkan kaedah menggunakan ciri Cgo untuk memanggil antara muka C/C++ Hadoop dalam bahasa Go. Seterusnya, kami menunjukkan cara menggunakan Hadoop untuk pengisihan data besar. Melalui pengenalan artikel ini, pembaca boleh mempelajari cara menggunakan bahasa Go dan Hadoop untuk pemprosesan data besar yang cekap.

Atas ialah kandungan terperinci Gunakan Hadoop dalam bahasa Go untuk mencapai pemprosesan data besar yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7322

Tutorial Java

1625

Tutorial CakePHP

1350

Tutorial Laravel

1262

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Cara menggunakan refleksi untuk mengakses medan dan kaedah persendirian dalam golang May 03, 2024 pm 12:15 PM

Anda boleh menggunakan refleksi untuk mengakses medan dan kaedah peribadi dalam bahasa Go: Untuk mengakses medan peribadi: dapatkan nilai pantulan nilai melalui reflect.ValueOf(), kemudian gunakan FieldByName() untuk mendapatkan nilai pantulan medan dan panggil Kaedah String() untuk mencetak nilai medan . Panggil kaedah persendirian: dapatkan juga nilai pantulan nilai melalui reflect.ValueOf(), kemudian gunakan MethodByName() untuk mendapatkan nilai pantulan kaedah, dan akhirnya panggil kaedah Call() untuk melaksanakan kaedah. Kes praktikal: Ubah suai nilai medan persendirian dan panggil kaedah persendirian melalui refleksi untuk mencapai kawalan objek dan liputan ujian unit.

Perbezaan antara ujian prestasi dan ujian unit dalam bahasa Go May 08, 2024 pm 03:09 PM

Ujian prestasi menilai prestasi aplikasi di bawah beban yang berbeza, manakala ujian unit mengesahkan ketepatan satu unit kod. Ujian prestasi memfokuskan pada mengukur masa tindak balas dan daya pemprosesan, manakala ujian unit memfokuskan pada output fungsi dan liputan kod. Ujian prestasi mensimulasikan persekitaran dunia sebenar dengan beban tinggi dan serentak, manakala ujian unit dijalankan di bawah beban rendah dan keadaan bersiri. Matlamat ujian prestasi adalah untuk mengenal pasti kesesakan prestasi dan mengoptimumkan aplikasi, manakala matlamat ujian unit adalah untuk memastikan ketepatan dan keteguhan kod.

Apakah perangkap yang perlu kita perhatikan semasa mereka bentuk sistem teragih dengan teknologi Golang? May 07, 2024 pm 12:39 PM

Perangkap dalam Bahasa Go Semasa Merekabentuk Sistem Teragih Go ialah bahasa popular yang digunakan untuk membangunkan sistem teragih. Walau bagaimanapun, terdapat beberapa perangkap yang perlu diberi perhatian apabila menggunakan Go yang boleh menjejaskan kekukuhan, prestasi dan ketepatan sistem anda. Artikel ini akan meneroka beberapa perangkap biasa dan memberikan contoh praktikal tentang cara mengelakkannya. 1. Terlalu banyak menggunakan concurrency Go ialah bahasa concurrency yang menggalakkan pembangun menggunakan goroutine untuk meningkatkan paralelisme. Walau bagaimanapun, penggunaan konkurensi yang berlebihan boleh menyebabkan ketidakstabilan sistem kerana terlalu banyak gorout bersaing untuk mendapatkan sumber dan menyebabkan overhed penukaran konteks. Kes praktikal: Penggunaan concurrency yang berlebihan membawa kepada kelewatan respons perkhidmatan dan persaingan sumber, yang ditunjukkan sebagai penggunaan CPU yang tinggi dan overhed kutipan sampah yang tinggi.

Pemprosesan data besar dalam teknologi C++: Bagaimana untuk menggunakan pangkalan data graf untuk menyimpan dan menanyakan data graf berskala besar? Jun 03, 2024 pm 12:47 PM

Teknologi C++ boleh mengendalikan data graf berskala besar dengan memanfaatkan pangkalan data graf. Langkah-langkah khusus termasuk: mencipta contoh TinkerGraph, menambah bucu dan tepi, merumuskan pertanyaan, mendapatkan nilai hasil dan menukar hasil menjadi senarai.

Pemprosesan data besar dalam teknologi C++: Bagaimana menggunakan teknologi pemprosesan aliran untuk memproses aliran data besar? Jun 01, 2024 pm 10:34 PM

Teknologi pemprosesan strim digunakan untuk pemprosesan data besar ialah teknologi yang memproses aliran data dalam masa nyata. Dalam C++, Apache Kafka boleh digunakan untuk pemprosesan strim. Pemprosesan strim menyediakan pemprosesan data masa nyata, kebolehskalaan dan toleransi kesalahan. Contoh ini menggunakan ApacheKafka untuk membaca data daripada topik Kafka dan mengira purata.

Perpustakaan dan alatan teknologi Golang yang digunakan dalam pembelajaran mesin May 08, 2024 pm 09:42 PM

Perpustakaan dan alatan untuk pembelajaran mesin dalam bahasa Go termasuk: TensorFlow: perpustakaan pembelajaran mesin popular yang menyediakan alatan untuk membina, melatih dan menggunakan model. GoLearn: Satu siri algoritma pengelasan, regresi dan pengelompokan Gonum: Pustaka pengkomputeran saintifik yang menyediakan operasi matriks dan fungsi algebra linear.

Adakah rangka kerja golang sesuai untuk pemprosesan data besar? Jun 01, 2024 pm 10:50 PM

Rangka kerja Go berfungsi dengan baik dalam memproses sejumlah besar data, dan kelebihannya termasuk konkurensi, prestasi tinggi dan keselamatan jenis. Rangka kerja Go yang sesuai untuk pemprosesan data besar termasuk ApacheBeam, Flink dan Spark. Dalam kes praktikal, saluran paip Beam boleh digunakan untuk memproses dan mengubah kumpulan data yang besar dengan cekap, seperti menukar senarai rentetan kepada huruf besar.

Bolehkah parameter pembolehubah golang digunakan untuk mengembalikan nilai fungsi? Apr 29, 2024 am 11:33 AM

Dalam bahasa Go, parameter pembolehubah tidak boleh digunakan sebagai nilai pulangan fungsi kerana nilai pulangan fungsi mestilah daripada jenis tetap. Variadik adalah jenis yang tidak ditentukan dan oleh itu tidak boleh digunakan sebagai nilai pulangan.

See all articles