Apache Hive入门2-MySQL-Tutorial-php.cn

Heim

Datenbank

MySQL-Tutorial

Apache Hive入门2

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:25 PM

apache hive 互联网入门公司

我的偏见 : 对于互联网公司来说提炼挖掘生产中用户产生的大量日志是个有价值的工作，在这些看似垃圾东西中蕴含着大量的商业机会和用户的需求，如果可以简单的实现当然皆大欢喜，但是面对庞大的输出日志需要去提炼的时候只好束手无则无视他的存在，就拿我们最

我的偏见:
对于互联网公司来说提炼挖掘生产中用户产生的大量日志是个有价值的工作，在这些看似垃圾东西中蕴含着大量的商业机会和用户的需求，如果可以简单的实现当然皆大欢喜，但是面对庞大的输出日志需要去提炼的时候只好束手无则无视他的存在，就拿我们最熟悉的Log4J来说，如果是上TB的海量文本类型输出的格式根本无法查询，更谈不上数据挖掘。
   当然我们也知道存放在数据库里面当然是不错的选择，对抗海量的日志数据存储与查询坚持做下去的话最后换来的是高昂的代价，Hive借助MapReduce的计算+HDFS的海量存储的功能，对与海量的日志存储、查询，数据挖掘Hive也是个不错的选择，在功能上和总体成本上高于刚刚所说的前两者。
   但是对与存储在其他类型的NOSQL产品，Hive投入正式生产的环境我们还需要进一步的分析与比较，例如：MongoDB vs Hive，这个2个产品对于海量日志数据挖掘的性能与系统的扩展性来说谁将会比谁更胜一筹喃？因为 MongoDB 中也是支持海量级分布式存储，并且MongoDB也支持了MapReduce算法，这样我就需要为此得出一个结论，或者说我需要一个折中的方案，但不是现在。

   Hive 中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。Hive中你添加了数据就无法删除的，SQL的fans们是不是很费解？我是这样认为的就拿Google的Google Analytics分析工具为例子，在Google Analytics分析工具会有对日志进行删除的操作吗？答案是“NO!”，也许在Hive设计的时候Facebook的工程师就认为对需要进行挖掘的数据删除是一项没有必要的工作，Hive在Facebook能成功，并且运行在上千台的节点上或许就是Facebook工程师们明确了Hive不去做的事情，让Hive只做好那一部分事情。

以上是我对 Hive Why(为什么使用Hive)片面的观点。

集群中的Hive
Hive的失效转发可以设计成这样的，将元数据和存储的数据分别保存在同一个位置，如图所示：
Hive Cluster

多个Hive的物理节点连接到相同的数据库和HDFS环境,防止Hive Thrift Server单点失效(SPFO)问题。

将Hive的MetaData 存储在 MySQL中，MySQL的运行环境支持双向同步或者集群，这样至少2台数据库服务器上热备份着Hive的元数据存储,例如:

javax.jdo.option.ConnectionURL
jdbc:mysql://192.168.1.203:3306/hive?createDatabaseIfNotExist=true

多个物理Hive节点的数据内容保存在HDFS上，通过修改 hive-default.xml 配置文件，指向NameNode节点即可，例如：

hive.metastore.warehouse.dir
hdfs://serv1:9000/user/hive/warehouse
/user/hive/warehouse –>
location of default database for the warehouse

Hive 与 Log4J
在Hive中建一张表叫user_log，里面含有4个字段，以\t划分，一行一条数据，建表的脚本如下：
CREATE TABLE USER_LOG(DateInfo STRING,LogName STRING,LogLevel STRING,MSG STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE;

在Log4J的日子输出格式中每个栏目以Tab相隔开，中间不是空格而是Tab，例如：
log4j.appender.A1.layout.ConversionPattern=%d %-6p %l %m %n

输入数据文件格式如下：
Hive Cluster

在Hive的控制台下将Log4J输出的日志文件导入Hive中，操作结果如下，如图所示：

在建表语句中还可以加入正则表达式，的自定义功能都在contrib里面，例如：将WEB日志先用正则表达式进行组合，再按需要的条件进行组合输入到表中
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)STORED AS TEXTFILE;

对于Hive的学习方向：
1、hive 的 hive-default.xml 配置文件中的参数细节，主要针对Hive的性能优化。
2、Hive 是如何使用MapReduce来完成工作的整套机制。

我的口水，目前使用Hadoop产品的国内外公司有如下一些：
Facebook
    处理内部产生的日志和数据挖掘、展示以及机器学习
IBM
    用Hadoop MapReduce 分析billions of lines of GPS data 并产生交通路线资讯.
Krugle
    用Hadoop and Nutch 建构原始码搜寻引擎
SEDNS – Security Enhanced DNS Group
    收集全世界的DNS 以探索网路分散式内容.
Technical analysis and Stock Research
    分析股票资讯
University of Nebraska Lincoln, Research Computing Facility
    用Hadoop跑约200TB的Compact Muon Solenoid经验分析紧凑渺子线圈,该机构是为瑞士欧洲核子研究组织CERN的大型强子对撞器计划的两大通用型粒子侦测器中的一个。
Yahoo!
    使用Hadoop平台来发现发送垃圾邮件的僵尸网络
趋势科技
    过滤像是钓鱼网站或恶意连结的网页内容
还有以前提到过的：A9.com、ImageShack、Last.fm、Powerset、纽约时报

在国内使用Hadoop的公司有：
淘宝、中国移动研究院、英特尔研究院、金山软件、百度、腾讯、新浪、搜狐。

相关文章：
Apache Hive入门1

–end–

原文地址：Apache Hive入门2, 感谢原作者分享。

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7715

Java-Tutorial

1641

CakePHP-Tutorial

1395

Laravel-Tutorial

1289

PHP-Tutorial

1232

Related knowledge

So setzen Sie das CGI -Verzeichnis in Apache Apr 13, 2025 pm 01:18 PM

Um ein CGI-Verzeichnis in Apache einzurichten, müssen Sie die folgenden Schritte ausführen: Erstellen Sie ein CGI-Verzeichnis wie "CGI-bin" und geben Sie Apache-Schreibberechtigungen. Fügen Sie den Block "scriptalias" -Richtungsblock in die Apache-Konfigurationsdatei hinzu, um das CGI-Verzeichnis der URL "/cgi-bin" zuzuordnen. Starten Sie Apache neu.

Was tun, wenn der Port Apache80 belegt ist Apr 13, 2025 pm 01:24 PM

Wenn der Port -80 -Port der Apache 80 besetzt ist, lautet die Lösung wie folgt: Finden Sie den Prozess, der den Port einnimmt, und schließen Sie ihn. Überprüfen Sie die Firewall -Einstellungen, um sicherzustellen, dass Apache nicht blockiert ist. Wenn die obige Methode nicht funktioniert, konfigurieren Sie Apache bitte so, dass Sie einen anderen Port verwenden. Starten Sie den Apache -Dienst neu.

So stellen Sie eine Verbindung zur Datenbank von Apache her Apr 13, 2025 pm 01:03 PM

Apache verbindet eine Verbindung zu einer Datenbank erfordert die folgenden Schritte: Installieren Sie den Datenbanktreiber. Konfigurieren Sie die Datei web.xml, um einen Verbindungspool zu erstellen. Erstellen Sie eine JDBC -Datenquelle und geben Sie die Verbindungseinstellungen an. Verwenden Sie die JDBC -API, um über den Java -Code auf die Datenbank zuzugreifen, einschließlich Verbindungen, Erstellen von Anweisungen, Bindungsparametern, Ausführung von Abfragen oder Aktualisierungen und Verarbeitungsergebnissen.

So starten Sie Apache Apr 13, 2025 pm 01:06 PM

Die Schritte zum Starten von Apache sind wie folgt: Installieren Sie Apache (Befehl: sudo apt-Get-Get-Installieren Sie Apache2 oder laden Sie ihn von der offiziellen Website herunter). (Optional, Linux: sudo systemctl

So sehen Sie Ihre Apache -Version an Apr 13, 2025 pm 01:15 PM

Es gibt 3 Möglichkeiten, die Version auf dem Apache -Server anzuzeigen: Über die Befehlszeile (apachect -v- oder apache2CTL -v) überprüfen Sie die Seite Serverstatus (http: // & lt; Server -IP- oder Domänenname & GT;/Server -Status) oder die Apache -Konfigurationsdatei (Serversion: Apache/& lt; Versionsnummer & GT;).).

So löschen Sie mehr als Servernamen von Apache Apr 13, 2025 pm 01:09 PM

Um eine zusätzliche Servername -Anweisung von Apache zu löschen, können Sie die folgenden Schritte ausführen: Identifizieren und löschen Sie die zusätzliche Servername -Richtlinie. Starten Sie Apache neu, damit die Änderungen wirksam werden. Überprüfen Sie die Konfigurationsdatei, um Änderungen zu überprüfen. Testen Sie den Server, um sicherzustellen, dass das Problem behoben ist.

So sehen Sie die Apache -Version an Apr 13, 2025 pm 01:00 PM

Wie sehe ich die Apache -Version an? Starten Sie den Apache -Server: Verwenden Sie sudo Service Apache2, um den Server zu starten. Versionsnummer anzeigen: Verwenden Sie eine der folgenden Methoden, um die Version anzuzeigen: Befehlszeile: Führen Sie den Befehl apache2 -v aus. Seite Serverstatus: Greifen Sie in einem Webbrowser auf den Standardport des Apache -Servers (normalerweise 80) zu, und die Versionsinformationen werden unten auf der Seite angezeigt.

So konfigurieren Sie Zend für Apache Apr 13, 2025 pm 12:57 PM

Wie konfigurieren Sie Zend in Apache? Die Schritte zur Konfiguration von Zend Framework in einem Apache -Webserver sind wie folgt: Installieren Sie Zend Framework und extrahieren Sie es in das Webserververzeichnis. Erstellen Sie eine .htaccess -Datei. Erstellen Sie das Zend -Anwendungsverzeichnis und fügen Sie die Index.php -Datei hinzu. Konfigurieren Sie die Zend -Anwendung (application.ini). Starten Sie den Apache -Webserver neu.

See all articles