빅데이터에 대한 고전적인 학습 경로는 무엇입니까?-일반적인 문제-php.cn

빅데이터에 대한 고전적인 학습 경로는 무엇입니까?

빅데이터 학습 경로는 다음과 같습니다.

java(Java se,javaweb)

Linux(shell, high concurrency Architecture, lucene, solr)

Hadoop(Hadoop, HDFS, Mapreduce, Yarn) , hive, hbase, sqoop, Zookeeper, flume)

기계 학습(R, mahout)

Storm(Storm, kafka, redis)

Spark(scala, Spark, Spark Core, Spark SQL, Spark Streaming, Spark mllib, Spark graphx)

Python(python, Spark Python)

클라우드 컴퓨팅 플랫폼(docker, kvm, openstack)

용어 설명

1. Linux

lucene: 전체 텍스트 검색 엔진 아키텍처

solr: Lucene 기반 전체 텍스트 검색 서버는 구성 및 확장이 가능하며 쿼리 성능을 최적화하고 완전한 기능 관리 인터페이스를 제공합니다.

2. Hadoop

HDFS: NameNode, DataNode를 포함한 분산 스토리지 시스템. NameNode: 메타데이터, DataNode. DataNode: 데이터를 저장합니다.

yarn: 본질적으로 Hadoop의 처리 및 분석 메커니즘인 MapReduce의 조정 메커니즘으로 이해될 수 있으며 ResourceManager와 NodeManager로 구분됩니다.

MapReduce: 프로그램 작성을 위한 소프트웨어 프레임워크입니다.

Hive: 데이터 웨어하우스는 SQL로 쿼리할 수 있으며 Map/Reduce 프로그램을 실행할 수 있습니다. 동향이나 웹사이트 로그를 계산하는 데 사용되며, 결과를 반환하는 데 시간이 오래 걸리므로 실시간 쿼리에는 사용해서는 안 됩니다.

HBase: 데이터베이스. 빅데이터의 실시간 조회에 매우 적합합니다. Facebook은 Hbase를 사용하여 메시지 데이터를 저장하고 메시지의 실시간 분석을 수행합니다.

ZooKeeper: 대규모 분산을 위한 안정적인 조정 시스템입니다. Hadoop의 분산 동기화는 여러 NameNode 및 활성 대기 전환과 같은 Zookeeper에 의해 구현됩니다.

Sqoop: 데이터베이스를 서로 전송하고, 관계형 데이터베이스와 HDFS를 서로 전송합니다.

Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리. 추천 마이닝, 집계, 분류, 빈번한 항목 집합 마이닝에 사용됩니다.

Chukwa: HDFS 및 Map/Reduce 프레임워크를 기반으로 구축된 대규모 분산 시스템을 모니터링하는 오픈 소스 수집 시스템입니다. 결과를 표시, 모니터링 및 분석합니다.

Ambari: 웹 기반의 친숙한 인터페이스인 Hadoop 클러스터를 구성, 관리 및 모니터링하는 데 사용됩니다.

2. Cloudera

Cloudera Manager: 관리, 모니터링, 진단, 통합

Cloudera CDH: (Apache Hadoop을 포함한 Cloudera의 배포판) Cloudera는 Hadoop에 해당 변경 사항을 적용했으며 배포판 버전을 CDH라고 합니다.

Cloudera Flume: 데이터 수집을 위해 로그 시스템의 다양한 데이터 전송자를 사용자 정의할 수 있도록 지원하는 로그 수집 시스템입니다.

Cloudera Impala: Apache Hadoop의 HDFS 및 HBase에 저장된 데이터에 대한 직접 쿼리 및 대화형 SQL을 제공합니다.

Clouderahue: Hui ui, hui 서버, hui db를 포함한 웹 관리자. Hue는 모든 CDH 구성 요소에 대한 셸 인터페이스 인터페이스를 제공하며 mr은 Hue로 작성할 수 있습니다.

3. Machine Learning/R

R: 통계 분석 및 그래픽을 위한 언어 및 운영 환경입니다. 현재 Hadoop-R

mahout이 있습니다. 클러스터링 및 분류를 포함하여 기계 학습 분야의 기존 알고리즘을 확장 가능하게 구현합니다. , 추천 필터링, 빈번한 하위 항목 마이닝 등을 제공하며 Hadoop을 통해 클라우드로 확장 가능합니다.

4. Storm

Storm: 실시간 분석, 온라인 기계 학습, 정보 흐름 처리, 연속 컴퓨팅, 분산 RPC, 실시간 처리에 사용할 수 있는 분산형 내결함성 실시간 스트리밍 컴퓨팅 시스템입니다. 메시지 및 데이터베이스 업데이트.

Kafka: 소비자 규모 웹사이트에서 모든 작업 스트리밍 데이터(탐색, 검색 등)를 처리할 수 있는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. Hadoop의 로그 데이터 및 오프라인 분석과 비교하여 실시간 처리가 가능합니다. 현재 Hadoop의 병렬 로딩 메커니즘은 온라인과 오프라인 메시지 처리를 통합하는 데 사용됩니다.

Redis: C 언어로 작성되었으며 네트워크를 지원하며 메모리 기반 및 영구화가 가능한 로그 유형의 키-값 데이터베이스입니다.

5. Spark

Scala: Java와 유사한 완전한 객체 지향 프로그래밍 언어입니다.

jblas: 빠른 선형 대수학 라이브러리(JAVA). ATLAS ART 구현은 행렬 계산의 사실상 업계 표준인 BLAS 및 LAPACK을 기반으로 하며 모든 계산 절차에 고급 인프라를 사용하므로 속도가 매우 빠릅니다.

Spark: Spark는 Scala 언어로 구현된 Hadoop MapReduce와 유사한 일반적인 병렬 프레임워크입니다. Hadoop MapReduce의 장점 외에도 MapReduce와는 달리 작업의 중간 출력 결과를 메모리에 저장할 수 있으므로 HDFS를 읽고 쓸 필요가 없으므로 Spark는 데이터 마이닝 및 기계 학습과 같은 반복이 필요한 MapReduce 알고리즘에 더 적합할 수 있습니다. Mesos를 사용하는 타사 클러스터 프레임워크는 Hadoop 파일 시스템과 병렬로 작동할 수 있습니다.

Spark SQL: Apache Spark 빅 데이터 프레임워크의 일부로 구조화된 데이터 처리에 사용할 수 있으며 SQL과 유사한 Spark 데이터 쿼리를 수행할 수 있습니다.

Spark 스트리밍: Spark의 기능을 확장하는 Spark 기반의 실시간 컴퓨팅 프레임워크입니다. 빅데이터를 처리하는 능력 데이터를 스트리밍하는 능력.

Spark MLlib: MLlib는 일반적으로 사용되는 기계 학습 알고리즘을 위한 Spark의 구현 라이브러리입니다. 현재(2014.05) 이진 분류, 회귀, 클러스터링 및 협업 필터링을 지원합니다. 또한 낮은 수준의 경사하강법 최적화 기본 알고리즘도 포함되어 있습니다. MLlib는 jblas 선형 대수 라이브러리에 의존하고 jblas 자체는 원격 Fortran 프로그램에 의존합니다.

Spark GraphX: GraphX는 Spark의 그래프 및 그래프 병렬 컴퓨팅을 위한 API로 Spark 위에 원스톱 데이터 솔루션을 제공할 수 있으며 그래프 컴퓨팅을 위한 전체 파이프라인 작업 세트를 편리하고 효율적으로 완료할 수 있습니다.

Fortran: 과학 및 엔지니어링 컴퓨팅 분야에서 널리 사용되는 최초의 고급 컴퓨터 프로그래밍 언어입니다.

BLAS: 선형 대수 연산을 위해 이미 작성된 다수의 프로그램이 포함된 기본 선형 대수 서브루틴 라이브러리입니다.

LAPACK: 유명한 공개 소프트웨어에는 선형 방정식, 선형 최소 제곱 문제, 고유값 문제 및 특이값 문제 등과 같은 과학 및 공학 계산에서 가장 일반적인 수치 선형 대수 문제를 해결하는 기능이 포함되어 있습니다.

ATLAS: BLAS 선형 알고리즘 라이브러리의 최적화된 버전입니다.

Spark Python: Spark는 스칼라 언어로 작성되었지만 홍보 및 호환성을 위해 Java 및 Python 인터페이스가 제공됩니다.

6. Python

Python: 객체 지향, 해석형 컴퓨터 프로그래밍 언어입니다.

7. 클라우드 컴퓨팅 플랫폼

Docker: 오픈 소스 애플리케이션 컨테이너 엔진

kvm: (키보드 비디오 마우스)

openstack: 오픈 소스 클라우드 컴퓨팅 관리 플랫폼 프로젝트