sqoop使用

Jun 07, 2016 pm 03:54 PM
hadoop 使用 道具 重要

sqoop 是进出hadoop的重要工具。 用sqoop从RDBMS中导入数据 sqoop import \ -D oozie.job.id=$wf_job_id \ -- 自定义参数 oozie 相关 -D mapred.job.queue.name=$mapred_job_queue_name \ -- 自定义参数 oozie 相关 --connect $data_db_url \ --RDMS jdbc地

sqoop 是进出hadoop的重要工具。

用sqoop从RDBMS中导入数据

sqoop import \
-D oozie.job.id=$wf_job_id \ -- 自定义参数 oozie 相关

-D mapred.job.queue.name=$mapred_job_queue_name \ -- 自定义参数 oozie 相关

--connect $data_db_url \ --RDMS jdbc地址
--username $data_db_username \ -RDBMS用户名
--password $data_db_password \ -RDBMS密码
--table $db_table \ -- RDBMS 表名
--columns $db_columns \ --导入字段,及其顺序
--verbose \
--target-dir $hdfs_target_dir \ ---HDFS目标文件夹
--fields-terminated-by '\001' \ ---字段分隔字符
--lines-terminated-by '\n' \ --- 行分隔字符
--hive-table $data_db_name.$hive_table \ --- hive表名
-m $parallel_count \ ---使用并发
--hive-import \ -- 使用hive开关
--hive-overwrite \ -- 是否覆盖写
--null-string '\\N' \ --空字段表示
--null-non-string '\\N' \
--hive-drop-import-delims

用sqoop 从 hadoop向RDBMS推送数据

使用 insert overwrite directory OOOO select * from XXXX; 将表XXXX 转换格式并导入HDFS中,准备推送

sqoop export \
-D oozie.job.id=$wf_job_id \
-D mapred.job.queue.name=$mapred_job_queue_name \
-D mapred.task.timeout=0 \
--connect $data_db_url \
--username $data_db_username \
--password $data_db_password \
--table ${table_name}_insert \
--export-dir $insert_dir \ --目标文件夹

--columns $db_columns \ --输出字段顺序(用于数据对其,非常重要)
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\001' \ -- 字段隔离符号
-m ${parallel_count} \ 并发数量

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DebianでMongodbの高可用性を確保する方法 DebianでMongodbの高可用性を確保する方法 Apr 02, 2025 am 07:21 AM

この記事では、Debianシステムで非常に利用可能なMongoDBデータベースを構築する方法について説明します。データのセキュリティとサービスが引き続き動作し続けるようにするための複数の方法を探ります。キー戦略:レプリカセット:レプリカセット:レプリカセットを使用して、データの冗長性と自動フェールオーバーを実現します。マスターノードが失敗すると、レプリカセットが自動的に新しいマスターノードを選択して、サービスの継続的な可用性を確保します。データのバックアップと回復:MongoDumpコマンドを定期的に使用してデータベースをバックアップし、データ損失のリスクに対処するために効果的な回復戦略を策定します。監視とアラーム:監視ツール(プロメテウス、グラファナなど)を展開して、MongoDBの実行ステータスをリアルタイムで監視し、

PythonインタープリターはLinuxシステムで削除できますか? PythonインタープリターはLinuxシステムで削除できますか? Apr 02, 2025 am 07:00 AM

Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

Debianの下のPostgreSQL監視方法 Debianの下のPostgreSQL監視方法 Apr 02, 2025 am 07:27 AM

この記事では、Debianシステムの下でPostgreSQLデータベースを監視するためのさまざまな方法とツールを紹介し、データベースのパフォーマンス監視を完全に把握するのに役立ちます。 1. PostgreSQLを使用して監視を監視す​​るビューPostgreSQL自体は、データベースアクティビティを監視するための複数のビューを提供します。 PG_STAT_REPLICATION:特にストリームレプリケーションクラスターに適した複製ステータスを監視します。 PG_STAT_DATABASE:データベースサイズ、トランザクションコミット/ロールバック時間、その他のキーインジケーターなどのデータベース統計を提供します。 2。ログ分析ツールPGBADGを使用します

Pythonパラメーター注釈は文字列を使用できますか? Pythonパラメーター注釈は文字列を使用できますか? Apr 01, 2025 pm 08:39 PM

Pythonパラメーター注釈の代替使用Pythonプログラミングでは、パラメーターアノテーションは、開発者が機能をよりよく理解して使用するのに役立つ非常に便利な機能です...

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は? プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は? Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

Investing.comの反クローラーメカニズムをバイパスするニュースデータを取得する方法は? Investing.comの反クローラーメカニズムをバイパスするニュースデータを取得する方法は? Apr 02, 2025 am 07:03 AM

Investing.comの反クラウリング戦略を理解する多くの人々は、Investing.com(https://cn.investing.com/news/latest-news)からのニュースデータをクロールしようとします。

ネットワーク構成に対するDebianメッセージの影響は何ですか ネットワーク構成に対するDebianメッセージの影響は何ですか Apr 02, 2025 am 07:51 AM

Debianシステムのネットワーク構成は、主に/etc/network/interfacesファイルを介して実装されており、IPアドレス、ゲートウェイ、DNSサーバーなどのネットワークインターフェイスパラメーターを定義します。 Debianシステムは通常、ifupとifdownコマンドを使用して、ネットワークインターフェイスを開始および停止します。 InterfacesファイルのIfelineを変更することにより、静的IPを設定するか、DHCPを使用してIPアドレスを動的に取得できます。 Debian12および後続のバージョンは、デフォルトでNetworkManagerを使用しなくなるため、IPコマンドなどの他のコマンドラインツールがネットワークインターフェイスを管理するために必要になる場合があることに注意する必要があります。 /etc /netwoを編集できます

Debianで動物園のパフォーマンスチューニングを操作する方法 Debianで動物園のパフォーマンスチューニングを操作する方法 Apr 02, 2025 am 07:42 AM

この記事では、Debian SystemsのZookeeperパフォーマンスを最適化する方法について説明します。ハードウェア、オペレーティングシステム、Zookeeperの構成、監視に関するアドバイスを提供します。 1.システムレベルでのストレージメディアのアップグレードの最適化:従来の機械的ハードドライブをSSDソリッドステートドライブに置き換えると、I/Oパフォーマンスが大幅に向上し、アクセス待ち時間が減少します。スワップパーティションの無効化:カーネルパラメーターを調整し、スワップパーティションへの依存を減らし、頻繁なメモリとディスクスワップに起因するパフォーマンスの損失を回避します。ファイル記述子の上限を改善する:Zookeeperの処理効率に影響を与えるリソース制限を回避するために、システムによって同時に許可されるファイル記述子の数を増やします。 2. Zookeeper構成最適化Zoo.CFGファイルの構成

See all articles