Alat Cerek ialah alat ETL (Extract, Transform, Load) sumber terbuka yang boleh membantu jurutera data mengekstrak, mengubah dan memuatkan data. Cerek bukan sahaja menyediakan antara muka visual, tetapi juga menggunakan skrip JavaScript untuk menyesuaikan proses pemprosesan ETL. Oleh itu, artikel ini akan memperkenalkan cara alat Cerek beroperasi menggunakan JavaScript.
1 Pengenalan kepada alat Kettle
Kettle ialah alat ETL berasaskan Java yang menyokong pelbagai sumber data dan data sasaran, termasuk pangkalan data hubungan, fail, pangkalan data NoSQL, dll., dan mempunyai ciri-ciri berikut.
Sokong data besar: Cerek menggunakan beberapa teknologi cekap memori untuk mencapai prestasi cemerlang apabila memproses sejumlah besar data atau serentak tinggi. - Pengesahan kualiti data: Cerek mempunyai fungsi pengesahan dan penyeliaan kualiti data serta boleh menjalankan pengesahan data berskala besar untuk memastikan ketepatan masa dan ketepatan data.
-
- 2. Cara mengendalikan skrip JavaScript alat Kettle
Untuk mengendalikan skrip JavaScript dalam alat Kettle, anda perlu mengikuti langkah berikut:
Buka alat Cerek, Buat transformasi atau kerja baharu.
Klik kanan penukaran atau kerja dan pilih "Edit" untuk memasuki keadaan pengeditan. - Dalam keadaan pengeditan, pilih langkah yang anda perlukan untuk menambah skrip JavaScript, klik kanan dan pilih "Langkah Edit".
- Dalam tetingkap yang muncul, pilih tab "Kecerdasan Perniagaan" dan kemudian pilih "JavaScript".
- Hanya masukkan skrip JavaScript dalam tetingkap ini. Dalam skrip, wizard Kettle akan menyediakan pembangun dengan beberapa pembolehubah dan kaedah biasa, yang boleh dipanggil terus atau ditugaskan untuk digunakan, memudahkan kesukaran operasi pembangun.
-
- 3. Gunakan skrip JavaScript untuk melengkapkan operasi ETL data
Skrip JavaScript Kettle berkuasa dan boleh digunakan untuk melaksanakan operasi pemprosesan ETL data yang kompleks. Di bawah ini kami akan memperkenalkan cara menggunakan skrip JavaScript untuk melengkapkan operasi ETL data daripada tiga aspek: "pengekstrakan data", "penukaran data" dan "pemuatan data".
Pengeluaran Data
- Apabila melaksanakan pengekstrakan data dalam Cerek, anda boleh menggunakan skrip JavaScript digabungkan dengan langkah "Input Jadual" untuk melengkapkan. Langkah-langkah khusus adalah seperti berikut:
1) Mula-mula, buat satu transformasi baharu, tambahkan langkah "Input Jadual", dan sambungkannya ke langkah lain; 2) Dalam tetingkap penyuntingan langkah "Input Jadual", pilih pilihan "Pertanyaan pernyataan SQL" dan masukkan pernyataan SQL yang diperlukan dalam kotak teks di bawah; JavaScript dalam kotak penyuntingan skrip Skrip;
4) Gunakan pembolehubah dan kaedah dalam skrip seperti berikut:
Penukaran data
Laksanakan data dalam Cerek Apabila menukar, anda boleh menggunakan skrip JavaScript digabungkan dengan langkah "Skrip Java" atau "JDBC" untuk melengkapkan. Langkah-langkah khusus adalah seperti berikut:
var row = getRow();
if(row) {
//在这里输入需要抽取的字段名和数据类型
var name = row.get("name");
var age = row.getInteger("age");
//在这里实现数据转换
age = age * 2;
//在这里输出结果
var newRow = createRowCopy(row);
newRow.setValue("new_age", age);
putRow(newRow);
} else {
//表格输入到此结束,结束结果保存到日志中,并返回null终止此步骤。
logBasic("表格输入完成");
null;
}
Salin selepas log masuk
1) Buat transformasi baharu dan tambahkan langkah "Java Script" atau "JDBC" di dalamnya untuk menyambung ke langkah lain; 2) Buka "Java Langkah skrip" atau " JDBC", tentukan sumber data dan data sasaran dalam tab "Parameter".
- 3) Pilih tab "Business Intelligence", kemudian pilih "JavaScript" dan tulis skrip JavaScript dalam kotak penyuntingan skrip
4) Gunakan pembolehubah dan kaedah dalam skrip untuk mencapai data penukaran , seperti yang ditunjukkan di bawah:
Pemuatan data
Apabila melaksanakan pemuatan data dalam Kettle, anda boleh menggunakan skrip JavaScript untuk menggabungkan langkah "Output Jadual" dan Langkah "Sisipkan/ Kemas Kini" untuk diselesaikan. Langkah-langkah khusus adalah seperti berikut:
1) Buat transformasi baharu dan tambahkan langkah "Output Jadual" dan langkah "Sisipkan/Kemas Kini" untuk menyambung ke langkah lain
//获取连接
var con = getJDBCConnectionByName("dbConnection");
//查询数据
var rs = con.prepareStatement("SELECT * FROM customer").executeQuery();
//添加查询结果到输出
while(rs.next()) {
var id = rs.getLong("id");
var name = rs.getString("name");
//在这里实现数据转换
var transformedName = name.toUpperCase();
//在这里输出结果
var newRow = createRowCopy(row);
newRow.setValue("id", id);
newRow.setValue("name", transformedName);
putRow(newRow);
}
//关闭连接
rs.close();
con.close();
Salin selepas log masuk
2) Buka langkah "Output Jadual", tentukan maklumat sumber data dalam tab "Output Jadual".
- 3) Pilih tab "Business Intelligence", kemudian pilih "JavaScript" dan tulis skrip JavaScript dalam kotak penyuntingan skrip
4) Gunakan pembolehubah dan kaedah dalam skrip untuk memuatkan data , seperti yang ditunjukkan di bawah:
Ringkasan
Skrip JavaScript alat cerek boleh membawa keupayaan pemprosesan ETL yang sangat fleksibel dan berkuasa kepada pembangun, dan boleh membantu pembangun mengekstrak data, penukaran dan tugasan pemuatan dengan cepat. Dalam kerja sebenar, pembangun hanya perlu menulis skrip JavaScript yang sesuai untuk keperluan pemprosesan data perniagaan tertentu, dan kemudian mereka boleh menyelesaikan kerja ETL data yang sepadan dengan cekap.
Atas ialah kandungan terperinci Cara alat Cerek beroperasi menggunakan JavaScript. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!