데이터 베이스 MySQL 튜토리얼 王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的

Jun 07, 2016 pm 04:30 PM
hadoop 클라우드 컴퓨팅 분산 실제 전투 데이터 주인

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 王家林的Hadoop官方博客

家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始……

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客: http://www.cnblogs.com/guoshiandroid/

?

第1分钟:

?????Hadoop要解决的问题是什么?

?????答:Hadoop核心要解决长期IT界乃至人类社会的两大主题:

  1, 海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储,Hadoop提出了解决方案,即HDFS.

  2, 海量数据的分析:如何有效而快速的从海量数据中提取出有价值的信息,Hadoop给出了解决方案,即MapReduce.

HDFS和MapReduce是Hadoop整个项目的基础和核心,Hadoop庞大的家族中的其它子项目都是基于HDFS和MapReduce,所以掌握HDFS和MapReduce也就掌握了Hadoop的核心。

第2分钟:

?????Hadoop的来源和发展历史是什么?

?????答:始于2002年Apache搜索引擎项目Nutch,2004年Nutch的开发者基于Google发表的著名的GFS论文开发出了开源版本的GFS即NDFS,2005年基于Google发表的著名的MapReduce论文把MapReduce引入NDFS,2006年改名为Hadoop,NDFS的创始人加入Yahoo,同时Yahoo成立专门的小组发展Hadoop。

?????可以看出,在Hadoop的发展过程中,除了其创始人外,Google和Yahoo居功至伟。

第3分钟:

?????Hadoop到底是什么?

????? 答:Hadoop是基于廉价设备利用集群的威力对海量数据进行安全存储和高效计算的分布式存储和分析框架,Hadoop本身是一个庞大的项目家族,其核心家族或者底层是HDFS和MapReduce,HDFS和MapReduce分别用来实现对海量数据的存储和分析,其它的项目,例如Hive、HBase等都是基于HDFS和MapReduce,是为了解决特定类型的大数据处理问题而提出的子项目,使用Hive、HBase等子项目可以在更高的抽象的基础上更简单的编写分布式大数据处理程序。Hadoop的其它子项目还包括 Common, Avro, Pig, ZooKeeper, Sqoop, Oozie?等,随着时间的推移一些新的子项目会被加入进来,一些关注度不高的项目会被移除Hadoop家族,所以Hadoop是一个充满活力的系统。

第4分钟:

?????什么问题场景下适合使用HDFS?什么场景下不适合采用HDFS?

?????答:

适合使用Hadoop的场景:非常大的文件,包括单个文件非常大(例如超过100G大小的文件)和文件总大小非常大(例如达到P级别),即支持海量的数据;“write-once,read-many-times”的Streaming的文件访问方式;普通的硬件系统支持大数据的处理;

不适用Hadoop的场景:低延迟的数据访问;有很多细小文件的系统;要多次写入和修改的文件系统;

?

第5分钟:

?????如何解读HDFS架构图?

?????答:架构图如下:


?HDFS架构图的解读:

?

  1,HDFS会把一个大文件分成很多小些的文件,把这些小文件存放在不同的节点上;

?

  2,这些数据存放的节点叫做DataNode,DataNade中存放HDFS中定义的Block,即数据块,每块的大小是64M;

?

  3,HDFS把大文件分成的多个小文件不仅存放在不同的节点上,而且同一个文件块在不同的节点上有多个副本;

?

  4,记录这些数据和数据划分以及存储信息的节点叫做NameNode,NameNode是关键性的配置文件,而且是单一节点存在的,在2.x开始使用了HA策略,即HDFS支持NameNode的active-standy模式了;

?

  5,客户端请求Hadoop中的数据时先要访问NameNode,从NameNode中获取DataNode中数据存储的信息后,才进行具体数据的访问;

?

第6分钟:

?

?????MapReduce到底是如何工作的?

?

??? ??答:家林举个例子你就明白了:求20个数据中的最大数,一般的编程方式把第一个数据开始往后面一个个的比较,总是把更大的数据记录下来,这样顺序比较下去,最后就得到了最大的数据;但是MapReduce的做法是把这20个数据分成4组,每组5个数据,每组采用Map函数求出最大值,然后后每组把求得的各自最大值交给Reduce,由Reduce得出最后的最大值;

?

?????简言之:MapReduce的工作方式就是大事化小,并行工作,各个击破。

?

?

?

第7分钟:

?

??????为什么要学习Hadoop?

?

?????答:Hadoop是云计算的具体实践技术,是处理大数据的开源框架,而大数据处理是IT界越来越热的主题,通过Hadoop开源代码的学习也是工程师提升自己功力的一个绝佳途径。

?

第8分钟:

?

?????如何开始学习Hadoop?

?

?????答:先搭建好Hadoop的单击环境、伪分布式环境和分布式环境。

?

第9分钟:

?

??????如何没有任何障碍的成为Hadoop高手?

?

? 答:学习免费发布王家林的云计算分布式大数据Hadoop实战高手之路(共3本书):

?

  1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

?

  2,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

?

  3,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

?

?

?

第10分钟:

?

??????进入家林的Hadoop教程,开始搭建Hadoop开发环境!

?

? ??


作者:javaniceyou 发表于2013-6-11 12:27:32 原文链接

阅读:119 评论:0 查看评论

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

클라우드 컴퓨팅 거대 기업, 법적 공방 시작: Amazon, Nokia를 특허 침해로 고소 클라우드 컴퓨팅 거대 기업, 법적 공방 시작: Amazon, Nokia를 특허 침해로 고소 Jul 31, 2024 pm 12:47 PM

31일 본 사이트 소식에 따르면 거대 기술기업 아마존은 핀란드 통신업체 노키아를 클라우드 컴퓨팅 기술과 관련된 12개 이상의 아마존 특허를 침해했다며 화요일 델라웨어 연방법원에 고소했다. 1. Amazon은 소송에서 Nokia가 자체 클라우드 서비스 제품을 향상시키기 위해 클라우드 컴퓨팅 인프라, 보안 및 성능 기술을 포함한 Amazon Cloud Computing Service(AWS) 관련 기술을 남용했다고 밝혔습니다. 아마존은 2006년 AWS를 출시했으며 획기적인 클라우드 컴퓨팅 기술은 2000년대 초반부터 개발됐다고 고소장에는 적혀 있다. 고소장에는 "아마존은 클라우드 컴퓨팅의 선구자인데 이제 노키아는 허가 없이 아마존의 클라우드 컴퓨팅 특허 기술을 사용하고 있다"고 적혀 있다. 아마존, 법원에 차단 금지 명령 요청

AI 스타트업들이 집단적으로 OpenAI로 직무를 전환했고, Ilya가 떠난 후 보안팀이 재편성되었습니다! AI 스타트업들이 집단적으로 OpenAI로 직무를 전환했고, Ilya가 떠난 후 보안팀이 재편성되었습니다! Jun 08, 2024 pm 01:00 PM

지난주 내부 사퇴와 외부 비판의 물결 속에서 OpenAI는 대내외적 난관에 봉착했다. - 미망인 여동생의 침해로 글로벌 열띤 논의가 촉발됐다. - '대군주 조항'에 서명한 직원들이 잇달아 폭로됐다. - 네티즌들은 울트라맨의 '' 일곱 가지 대죄" ” 소문 파기: Vox가 입수한 유출된 정보와 문서에 따르면 Altman을 포함한 OpenAI의 고위 경영진은 이러한 지분 회수 조항을 잘 알고 있었고 이에 서명했습니다. 또한 OpenAI가 직면한 심각하고 시급한 문제인 AI 보안이 있습니다. 최근 가장 눈에 띄는 직원 2명을 포함해 보안 관련 직원 5명이 퇴사하고, '슈퍼얼라인먼트' 팀이 해체되면서 OpenAI의 보안 문제가 다시 한 번 주목을 받고 있다. 포춘지는 OpenA가

70B 모델은 몇 초 안에 1,000개의 토큰을 생성하고 코드 재작성은 OpenAI가 투자한 코드 아티팩트인 Cursor 팀의 GPT-4o를 능가합니다. 70B 모델은 몇 초 안에 1,000개의 토큰을 생성하고 코드 재작성은 OpenAI가 투자한 코드 아티팩트인 Cursor 팀의 GPT-4o를 능가합니다. Jun 13, 2024 pm 03:47 PM

70B 모델에서는 1000개의 토큰을 몇 초 만에 생성할 수 있으며 이는 거의 4000자로 변환됩니다! 연구진은 Llama3를 미세 조정하고 가속 알고리즘을 도입하여 기본 버전과 비교하여 속도가 13배 빨라졌습니다. 속도가 빠를 뿐만 아니라 코드 재작성 작업 성능도 GPT-4o를 능가합니다. 이 성과는 인기 있는 AI 프로그래밍 아티팩트인 Cursor를 개발한 팀과 OpenAI도 투자에 참여한 anysphere에서 이루어졌습니다. 빠른 추론 가속 프레임워크로 잘 알려진 Groq에서는 70BLlama3의 추론 속도가 초당 300개 토큰이 조금 넘는다는 사실을 아셔야 합니다. Cursor의 속도 덕분에 거의 즉각적인 완전한 코드 파일 편집이 가능하다고 할 수 있습니다. 어떤 사람들은 좋은 사람이라고 커스를 넣으면

C++ 클라우드 컴퓨팅 모범 사례: 배포, 관리 및 확장성 고려 사항 C++ 클라우드 컴퓨팅 모범 사례: 배포, 관리 및 확장성 고려 사항 Jun 01, 2024 pm 05:51 PM

C++ 클라우드 애플리케이션을 효과적으로 배포하기 위한 모범 사례에는 Docker와 같은 컨테이너를 사용하여 컨테이너화된 배포가 포함됩니다. CI/CD를 사용하여 릴리스 프로세스를 자동화하세요. 버전 제어를 사용하여 코드 변경 사항을 관리합니다. 애플리케이션 상태를 추적하기 위해 로깅 및 모니터링을 구현합니다. 자동 조정을 사용하여 리소스 활용도를 최적화합니다. 클라우드 관리 서비스로 애플리케이션 인프라를 관리하세요. 수평적 확장과 수직적 확장을 사용하여 수요에 따라 애플리케이션 용량을 조정합니다.

클라우드 컴퓨팅 분야에서 Golang 기술의 응용 대안 클라우드 컴퓨팅 분야에서 Golang 기술의 응용 대안 May 09, 2024 pm 03:36 PM

Golang 클라우드 컴퓨팅 대안에는 Node.js(경량, 이벤트 중심), Python(사용 용이성, 데이터 과학 기능), Java(안정적, 고성능) 및 Rust(안전성, 동시성)가 포함됩니다. 가장 적절한 대안을 선택하는 것은 애플리케이션 요구 사항, 생태계, 팀 기술 및 확장성에 따라 달라집니다.

차이나모바일 : 인류가 4차 산업혁명을 맞이하며 '3대 계획' 공식 발표 차이나모바일 : 인류가 4차 산업혁명을 맞이하며 '3대 계획' 공식 발표 Jun 27, 2024 am 10:29 AM

26일 뉴스에 따르면 2024년 상하이 세계이동통신회의(MWC 상하이) 개막식에서 양지에 차이나모바일 회장이 연설을 했다. 그는 현재 인류사회는 정보가 지배하고 정보와 에너지가 깊이 융합되는 4차 산업혁명, 즉 '디지털·지능 혁명'에 진입하고 있으며, 새로운 생산력의 형성이 가속화되고 있다고 말했다. Yang Jie는 증기기관이 주도하는 '기계화 혁명'부터 전기와 내연기관이 주도하는 '전기화 혁명', 컴퓨터와 인터넷이 주도하는 '정보 혁명'에 이르기까지 모든 산업 혁명이 다음을 기반으로 한다고 믿습니다. "정보"와 "에너지"가 주력으로 생산성 향상을 가져옵니다

PHP REST API와 클라우드 컴퓨팅 플랫폼의 통합 PHP REST API와 클라우드 컴퓨팅 플랫폼의 통합 Jun 04, 2024 pm 03:52 PM

PHPRESTAPI를 클라우드 컴퓨팅 플랫폼과 통합하면 확장성, 안정성 및 탄력성이 향상됩니다. 단계: 1. GCP 프로젝트와 서비스 계정을 만듭니다. 2. GoogleAPIPHP 라이브러리를 설치합니다. 3. GCP 클라이언트 라이브러리를 초기화합니다. 4. REST API 엔드포인트를 개발합니다. 모범 사례: 캐싱 사용, 오류 처리, 요청 속도 제한, HTTPS 사용. 실제 사례: Cloud Storage 클라이언트 라이브러리를 사용하여 Google Cloud Storage에 파일을 업로드합니다.

Java 클라우드 컴퓨팅: 클라우드 마이그레이션 전략 및 단계 Java 클라우드 컴퓨팅: 클라우드 마이그레이션 전략 및 단계 Jun 05, 2024 pm 03:54 PM

Java 클라우드 마이그레이션에는 확장성, 탄력성, 비용 최적화와 같은 이점을 얻기 위해 애플리케이션과 데이터를 클라우드 플랫폼으로 마이그레이션하는 작업이 포함됩니다. 모범 사례는 다음과 같습니다. 마이그레이션 적격성과 잠재적인 문제를 철저히 평가합니다. 위험을 줄이기 위해 단계별로 마이그레이션하세요. 가능한 경우 클라우드 우선 원칙을 채택하고 클라우드 네이티브 애플리케이션을 구축하세요. 컨테이너화를 사용하여 마이그레이션을 단순화하고 이식성을 향상시키세요. 자동화를 통해 마이그레이션 프로세스를 단순화하세요. 클라우드 마이그레이션 단계에는 계획 및 평가, 대상 환경 준비, 애플리케이션 마이그레이션, 데이터 마이그레이션, 테스트 및 검증, 최적화 및 모니터링이 포함됩니다. 이러한 사례를 따르면 Java 개발자는 성공적으로 클라우드로 마이그레이션하고 클라우드 컴퓨팅의 이점을 활용하여 위험을 완화하고 자동화되고 단계적인 마이그레이션을 통해 성공적인 마이그레이션을 보장할 수 있습니다.

See all articles