使用Apache Hadoop、Impala和MySQL进行数据分析_MySQL
Apache
Apache Hadoop是目前被大家广泛使用的数据分析平台,它可靠、高效、可伸缩。Percona公司的Alexander Rubin最近发表了一篇博客文章介绍了他是如何将一个表从MySQL导出到Hadoop然后将数据加载到Cloudera Impala并在这上面运行报告的。
在Alexander Rubin的这个测试示例中他使用的集群包含6个数据节点。下面是具体的规格:
用途 |
服务器规格 |
NameNode、DataNode、Hive 元数据存储等 |
2x PowerEdge 2950, 2x L5335 CPU @ 2.00GHz, 8 cores, 16GB RAM, 使用8个SAS驱动器的RAID 10 |
仅做数据节点 |
4x PowerEdge SC1425, 2x Xeon CPU @ 3.00GHz, 2 cores, 8GB RAM, 单个4TB 驱动器 |
数据导出
有很多方法可以将数据从MySQL导出到Hadoop。在Rubin的这个示例中,他简单地将ontime表导出到了一个文本文件中:
select*intooutfile '/tmp/ontime.psv'
FIELDS TERMINATED BY ','
fromontime;
你可以使用“|”或者任何其他的符号作为分隔符。当然,还可以使用下面这段简单的脚本直接从www.transtats.bts.gov上下载数据。
foryin{1988..2013}
do
foriin{1..12}
do
u="http://www.transtats.bts.gov/Download/On_Time_On_Time_Performance_${y}_${i}.zip"
wget $u -o ontime.log
unzipOn_Time_On_Time_Performance_${y}_${i}.zip
done
done
载入Hadoop HDFS
Rubin首先将数据载入到了HDFS中作为一组文件。Hive或者Impala将会使用导入数据的那个目录,连接该目录下的所有文件。在Rubin的示例中,他在HDFS上创建了/data/ontime/目录,然后将本地所有匹配On_Time_On_Time_Performance_*.csv模式的文件复制到了该目录下。
$ hdfs dfs -mkdir /data/ontime/
$ hdfs -v dfs -copyFromLocalOn_Time_On_Time_Performance_*.csv /data/ontime/
在Impala中创建外部表
当所有数据文件都被载入之后接下来需要创建一个外部表:
CREATE EXTERNAL TABLE ontime_csv (
YearDint,
Quartertinyint ,
MonthDtinyint ,
DayofMonthtinyint ,
DayOfWeektinyint ,
FlightDatestring,
UniqueCarrierstring,
AirlineIDint,
Carrierstring,
TailNumstring,
FlightNumstring,
OriginAirportIDint,
OriginAirportSeqIDint,
OriginCityMarketIDint,
Originstring,
OriginCityNamestring,
OriginStatestring,
OriginStateFipsstring,
OriginStateNamestring,
OriginWacint,
DestAirportIDint,
DestAirportSeqIDint,
DestCityMarketIDint,
Deststring,
...
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/data/ontime';
注意“EXTERNAL”关键词和LOCATION,后者指向HDFS中的一个目录而不是文件。Impala仅会创建元信息,不会修改表。创建之后就能立即查询该表,在Rubin的这个示例中执行的SQL是:
>selectyeard, count(*)fromontime_psv groupbyyeard;
该SQL耗时131.38秒。注意GROUP BY并不会对行进行排序,这一点不同于MySQL,如果要排序需要添加 ORDER BY yeard语句。另外通过执行计划我们能够发现Impala需要扫描大小约为45.68GB的文件。
Impala使用面向列的格式和压缩
Impala最大的好处就是它支持面向列的格式和压缩。Rubin尝试了新的使用Snappy压缩算法的Parquet格式。因为这个例子使用的表非常大,所以最好使用基于列的格式。为了使用Parquet格式,首先需要载入数据,这在Impala中已经有表、HDFS中已经有文件的情况下是非常容易实现的。本示例大约使用了729秒的时间导入了约1亿5千万条记录,导入之后使用新表再次执行同一个查询所耗费的时间只有4.17秒,扫描的数据量也小了很多,压缩之后的数据只有3.95GB。
Impala复杂查询示例
select
min(yeard), max(yeard),Carrier, count(*)ascnt,
sum(if(ArrDelayMinutes>30, 1, 0))asflights_delayed,
round(sum(if(ArrDelayMinutes>30, 1, 0))/count(*),2)asrate
FROM ontime_parquet_snappy
WHERE
DayOfWeeknotin(6,7)andOriginStatenotin('AK', 'HI', 'PR', 'VI')
andDestStatenotin('AK', 'HI', 'PR', 'VI')
andflightdate GROUPbycarrier
HAVING cnt > 100000andmax(yeard) > 1990
ORDERbyrate DESC
LIMIT 1000;
注意:以上查询不支持sum(ArrDelayMinutes>30)语法,需要使用sum(if(ArrDelayMinutes>30, 1, 0) 代替。另外查询故意被设计为不使用索引:大部分条件仅会过滤掉不到30%的数据。
该查询耗时15.28秒比最初的MySQL结果(非并行执行时15分56.40秒,并行执行时5分47秒)要快很多。当然,它们之间并不是一个“对等的比较”:
- MySQL将扫描45GB的数据而使用Parquet的Impala仅会扫描3.5GB的数据
- MySQL运行在一台服务器上,而Hadoop和Impala则并行运行在6台服务器上
尽管如此,Hadoop和Impala在性能方面的表现依然令人印象深刻,同时还能够支持扩展,因此在大数据分析场景中它能为我们提供很多帮助。
感谢崔康对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











1. 今すぐ Toutiao の記事を公開してどうやってお金を稼ぐことができますか?今すぐ Toutiao で記事を公開して収入を増やす方法! 1. 基本的な権利と利益の有効化: オリジナルの記事は広告によって利益を得ることができますが、利益を得るにはビデオが横画面モードでオリジナルである必要があります。 2. ファン100人の権利を有効化:ファン数が100人以上に達すると、マイクロヘッドライン、オリジナルQ&A作成、Q&Aから利益を得ることができます。 3. オリジナル作品にこだわる: オリジナル作品には記事、小見出し、質問などが含まれ、300 ワード以上であることが求められます。違法に盗用された作品をオリジナル作品として出版した場合、クレジットポイントが減点され、利益も差し引かれますのでご注意ください。 4. 垂直性:専門分野の記事を書く場合、分野を超えて自由に記事を書くことができず、適切な推薦が得られず、専門性や洗練度が得られず、ファンもつきにくいそして読者たち。 5. 活動: 高活動、

ゼロから始めて、Flask をインストールし、個人ブログをすぐに構築する方法を段階的に説明します。書くことが好きな人にとって、個人ブログを持つことは非常に重要です。軽量の Python Web フレームワークである Flask は、シンプルで完全に機能する個人ブログを迅速に構築するのに役立ちます。この記事では、ゼロから始めて、Flask をインストールして個人ブログを迅速に構築する方法を段階的に説明します。ステップ 1: Python と pip をインストールする 開始する前に、まず Python と pi をインストールする必要があります

ブログとは、ウェログ、ブログ、ブログとも訳され、通常は個人によって運営され、随時新しい記事が投稿されるウェブサイトです。では、どうやってブログを開設すればいいのでしょうか? PHP ブログ システムとは何ですか?どのブログ システムを使用するのが最適ですか?以下の PHP 中国語 Web サイトでは、トップ 10 のオープンソース PHP ブログ システムを要約して共有します。

インターネットの発展に伴い、ブログはますます多くの人々が自分の生活、知識、アイデアを共有するプラットフォームになりました。自分のブログも作成したい場合は、この記事で PHP と SQLite を使用して簡単なブログを作成する方法を紹介します。ニーズを決定する ブログを作成し始める前に、実現したい機能を決定する必要があります。例: ブログ投稿の作成 ブログ投稿の編集 ブログ投稿の削除 ブログ投稿のリストの表示 ブログ投稿の詳細の表示 ユーザー認証と権限制御 PHP と SQLite のインストール PHP と S をインストールする必要があります

インターネットの普及に伴い、ブログは情報の普及とコミュニケーションにおいてますます重要な役割を果たしています。このような状況で、ますます多くの人が自分のブログ サイトを構築し始めています。この記事では、PythonDjango フレームワークを使用して独自のブログ Web サイトを構築する方法を紹介します。 1. PythonDjango フレームワークの概要 PythonDjango は、Web アプリケーションを迅速に開発するために使用できる無料のオープンソース Web フレームワークです。このフレームワークは、開発者が豊富な機能を構築できる強力なツールを提供します。

PHP を使用して簡単なブログを作成する方法 1. はじめに インターネットの急速な発展に伴い、ブログは人々が経験を共有し、生活を記録し、意見を表現するための重要な方法となっています。この記事では、PHPを使って簡単なブログを作成する方法を、具体的なコード例とともに紹介します。 2. 準備 開始する前に、次の開発環境が必要です: PHP インタプリタと Web サーバー (Apache など) がインストールされたコンピュータ、MySQL などのデータベース管理システム、テキスト エディタまたは IDE3

ブログを作成するには、ブログのトピックと対象読者の決定、適切なブログ プラットフォームの選択、ドメイン名の登録とホスティングの購入、ブログの外観とレイアウトのデザイン、高品質のコンテンツの作成、ブログの宣伝、分析と分析を行います。それを改善することです。

ハルビン医科大学の臨床薬学の就職の見通しはどのようなものですか? 全国の雇用情勢は楽観的ではありませんが、薬学部卒業生の就職の見通しは依然として良好です。全体として、薬学部卒業生の供給は需要を下回っており、製薬会社や製薬工場がその卒業生を吸収する主なチャネルとなっており、製薬業界における人材需要も着実に伸びています。報道によると、近年、医薬品製剤や生薬化学などの専攻の大学院生の需給比は1:10に達するケースもあるという。臨床薬学専攻の就職方向:臨床医学専攻の学生は卒業後、医療保健ユニット、医学研究部門等で治療、予防、医学研究等に従事することができます。雇用職種:医薬情報担当者、医薬品営業担当者、営業担当者、営業マネージャー、地域営業マネージャー、投資マネージャー、プロダクトマネージャー、プロダクトスペシャリスト、看護師
