빅데이터 학습 경로는 무엇인가요?-일반적인 문제-php.cn

집

일반적인 문제

빅데이터 학습 경로는 무엇인가요?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:34 PM

빅데이터 학습 경로

빅 데이터 학습 경로

java(Java se,javaweb)

Linux(셸, 동시성 아키텍처, lucene, solr)

Hadoop(Hadoop, HDFS, Mapreduce, Yarn, hive, hbase , sqoop, Zookeeper, flume)

기계 학습(R, mahout)

Storm(Storm, kafka, redis)

Spark(scala, Spark, Spark Core, Spark SQL, Spark Streaming, Spark mllib, Spark Graphx)

Python(python, Spark Python)

클라우드 컴퓨팅 플랫폼(docker, kvm, openstack)

용어 설명:

1. Linux

lucene: 전체 텍스트 검색 엔진 아키텍처

solr: 기반 lucene에서 전체 텍스트 검색 서버는 구성 및 확장이 가능하고 쿼리 성능을 최적화하며 완전한 기능 관리 인터페이스를 제공합니다.

2. Hadoop

HDFS: NameNode, DataNode를 포함한 분산 스토리지 시스템. NameNode: 메타데이터, DataNode. DataNode: 데이터를 저장합니다.

yarn: 본질적으로 Hadoop의 처리 및 분석 메커니즘인 MapReduce의 조정 메커니즘으로 이해될 수 있으며 ResourceManager와 NodeManager로 구분됩니다.

MapReduce: 프로그램 작성을 위한 소프트웨어 프레임워크입니다.

Hive: 데이터 웨어하우스는 SQL로 쿼리할 수 있으며 Map/Reduce 프로그램을 실행할 수 있습니다. 동향이나 웹사이트 로그를 계산하는 데 사용되며, 결과를 반환하는 데 시간이 오래 걸리므로 실시간 쿼리에는 사용해서는 안 됩니다.

HBase: 데이터베이스. 빅데이터의 실시간 조회에 매우 적합합니다. Facebook은 Hbase를 사용하여 메시지 데이터를 저장하고 메시지의 실시간 분석을 수행합니다.

ZooKeeper: 대규모 분산을 위한 안정적인 조정 시스템입니다. 여러 NameNode 및 활성 대기 전환과 같은 Hadoop의 분산 동기화는 Zookeeper에 의해 구현됩니다.

Sqoop: 데이터베이스를 서로 전송하고, 관계형 데이터베이스와 HDFS를 서로 전송합니다.

Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리. 추천 마이닝, 집계, 분류, 빈번한 항목 집합 마이닝에 사용됩니다.

Chukwa: HDFS 및 Map/Reduce 프레임워크를 기반으로 구축된 대규모 분산 시스템을 모니터링하는 오픈 소스 수집 시스템입니다. 결과를 표시, 모니터링 및 분석합니다.

Ambari: 웹 기반의 친숙한 인터페이스인 Hadoop 클러스터를 구성, 관리 및 모니터링하는 데 사용됩니다.

관련 권장사항: "FAQ"

3. Cloudera

Cloudera Manager: 관리, 모니터링 및 진단 통합

Cloudera CDH: (Apache Hadoop을 포함한 Cloudera의 배포판) Cloudera는 Hadoop에 상응하는 변경 사항을 적용했습니다. 버전은 CDH라고 합니다.

Cloudera Flume: 데이터 수집을 위해 로그 시스템의 다양한 데이터 전송자를 사용자 정의할 수 있도록 지원하는 로그 수집 시스템입니다.

Cloudera Impala: Apache Hadoop의 HDFS 및 HBase에 저장된 데이터에 대한 직접 쿼리 및 대화형 SQL을 제공합니다.

Clouderahue: Hui ui, hui 서버, hui db를 포함한 웹 관리자. Hue는 모든 CDH 구성 요소에 대한 셸 인터페이스 인터페이스를 제공하며 mr은 Hue로 작성할 수 있습니다.

4. 기계 학습/R

R: 통계 분석 및 그래픽을 위한 언어 및 운영 환경, 현재 Hadoop-R

mahout: 클러스터링, 분류, 추천 필터링, 빈번한 하위 항목 마이닝 등을 지원하며 Hadoop을 통해 클라우드로 확장 가능합니다.

5. Storm

Storm: 실시간 분석, 온라인 기계 학습, 정보 흐름 처리, 연속 컴퓨팅, 분산 RPC, 실시간에 사용할 수 있는 분산형 내결함성 실시간 스트리밍 컴퓨팅 시스템 메시지 처리 및 데이터베이스 업데이트.

Kafka: 소비자 규모 웹사이트에서 모든 작업 스트리밍 데이터(탐색, 검색 등)를 처리할 수 있는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. Hadoop의 로그 데이터 및 오프라인 분석과 비교하여 실시간 처리가 가능합니다. 현재 Hadoop의 병렬 로딩 메커니즘은 온라인과 오프라인 메시지 처리를 통합하는 데 사용됩니다.

Redis: C 언어로 작성되었으며 네트워크를 지원하며 메모리 기반 및 영구화가 가능한 로그 유형의 키-값 데이터베이스입니다.

5. Spark

Scala: Java와 유사한 완전한 객체 지향 프로그래밍 언어입니다.

jblas: 빠른 선형 대수학 라이브러리(JAVA). ATLAS ART 구현은 행렬 계산의 사실상 업계 표준인 BLAS 및 LAPACK을 기반으로 하며 모든 계산 절차에 고급 인프라를 사용하므로 속도가 매우 빠릅니다.

Spark: Spark는 Scala 언어로 구현된 Hadoop MapReduce와 유사한 일반적인 병렬 프레임워크입니다. Hadoop MapReduce의 장점 외에도 MapReduce와는 달리 작업의 중간 출력 결과를 메모리에 저장할 수 있으므로 HDFS를 읽고 쓸 필요가 없으므로 Spark는 데이터 마이닝 및 기계 학습과 같은 반복이 필요한 MapReduce 알고리즘에 더 적합할 수 있습니다. Mesos를 사용하는 타사 클러스터 프레임워크는 Hadoop 파일 시스템과 병렬로 작동할 수 있습니다.

Spark SQL: Apache Spark 빅 데이터 프레임워크의 일부로 구조화된 데이터 처리에 사용할 수 있으며 SQL과 유사한 Spark 데이터 쿼리를 수행할 수 있습니다.

Spark 스트리밍: Spark의 기능을 확장하는 Spark 기반의 실시간 컴퓨팅 프레임워크입니다. 빅데이터를 처리하는 능력 데이터를 스트리밍하는 능력.

Spark MLlib: MLlib는 일반적으로 사용되는 기계 학습 알고리즘을 위한 Spark의 구현 라이브러리입니다. 현재(2014.05) 이진 분류, 회귀, 클러스터링 및 협업 필터링을 지원합니다. 또한 낮은 수준의 경사하강법 최적화 기본 알고리즘도 포함되어 있습니다. MLlib는 jblas 선형 대수 라이브러리에 의존하고 jblas 자체는 원격 Fortran 프로그램에 의존합니다.

Spark GraphX: GraphX는 Spark의 그래프 및 그래프 병렬 컴퓨팅을 위한 API로 Spark 위에 원스톱 데이터 솔루션을 제공할 수 있으며 그래프 컴퓨팅을 위한 전체 파이프라인 작업 세트를 편리하고 효율적으로 완료할 수 있습니다.

Fortran: 과학 및 엔지니어링 컴퓨팅 분야에서 널리 사용되는 최초의 고급 컴퓨터 프로그래밍 언어입니다.

BLAS: 선형 대수 연산을 위해 이미 작성된 다수의 프로그램이 포함된 기본 선형 대수 서브루틴 라이브러리입니다.

LAPACK: 유명한 공개 소프트웨어에는 선형 방정식, 선형 최소 제곱 문제, 고유값 문제 및 특이값 문제 등과 같은 과학 및 공학 계산에서 가장 일반적인 수치 선형 대수 문제를 해결하는 기능이 포함되어 있습니다.

ATLAS: BLAS 선형 알고리즘 라이브러리의 최적화된 버전입니다.

Spark Python: Spark는 스칼라 언어로 작성되었지만 홍보 및 호환성을 위해 Java 및 Python 인터페이스가 제공됩니다.

6. Python

Python: 객체 지향, 해석형 컴퓨터 프로그래밍 언어입니다.

7. 클라우드 컴퓨팅 플랫폼

Docker: 오픈 소스 애플리케이션 컨테이너 엔진

kvm: (키보드 비디오 마우스)

openstack: 오픈 소스 클라우드 컴퓨팅 관리 플랫폼 프로젝트

위 내용은 빅데이터 학습 경로는 무엇인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7480

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

PHP의 빅데이터 구조 처리 능력 May 08, 2024 am 10:24 AM

빅 데이터 구조 처리 기술: 청킹(Chunking): 데이터 세트를 분할하고 청크로 처리하여 메모리 소비를 줄입니다. 생성기: 전체 데이터 세트를 로드하지 않고 데이터 항목을 하나씩 생성하므로 무제한 데이터 세트에 적합합니다. 스트리밍: 파일을 읽거나 결과를 한 줄씩 쿼리하므로 대용량 파일이나 원격 데이터에 적합합니다. 외부 저장소: 매우 큰 데이터 세트의 경우 데이터를 데이터베이스 또는 NoSQL에 저장합니다.

2024년 AEC/O 산업의 5가지 주요 개발 동향 Apr 19, 2024 pm 02:50 PM

AEC/O(Architecture, Engineering & Construction/Operation)는 건설 산업 분야에서 건축 설계, 엔지니어링 설계, 시공 및 운영을 제공하는 종합 서비스를 말합니다. 2024년 AEC/O 산업은 기술 발전으로 인해 변화하는 도전에 직면하게 될 것입니다. 올해는 첨단 기술이 집약되어 설계, 시공, 운영의 패러다임 전환을 예고하는 해가 될 것으로 예상됩니다. 이러한 변화에 대응하여 업계에서는 빠르게 변화하는 세계의 요구 사항에 적응하기 위해 작업 프로세스를 재정의하고 우선 순위를 조정하며 협업을 강화하고 있습니다. AEC/O 산업의 다음 5가지 주요 트렌드는 2024년 핵심 주제가 될 것이며, 더욱 통합되고 대응력이 뛰어나며 지속 가능한 미래로 나아갈 것을 권장합니다. 통합 공급망, 스마트 제조

C++ 개발 경험 공유: C++ 빅데이터 프로그래밍 실무 경험 Nov 22, 2023 am 09:14 AM

인터넷 시대에 빅데이터는 새로운 자원으로 자리 잡았으며, 빅데이터 분석 기술의 지속적인 발전으로 인해 빅데이터 프로그래밍에 대한 수요가 더욱 절실해지고 있습니다. 널리 사용되는 프로그래밍 언어로서 빅 데이터 프로그래밍에서 C++의 고유한 장점은 점점 더 두드러지고 있습니다. 아래에서는 C++ 빅데이터 프로그래밍에 대한 실제 경험을 공유하겠습니다. 1. 적절한 데이터 구조 선택 적절한 데이터 구조를 선택하는 것은 효율적인 빅데이터 프로그램을 작성하는 데 중요한 부분입니다. C++에는 배열, 연결 목록, 트리, 해시 테이블 등과 같이 사용할 수 있는 다양한 데이터 구조가 있습니다.

58 초상화 플랫폼 구축에 알고리즘 적용 May 09, 2024 am 09:01 AM

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

Go 언어에서 빅데이터 프레임워크가 부족한 이유와 해결 방법에 대한 토론 Mar 29, 2024 pm 12:24 PM

오늘날 빅데이터 시대에 데이터 처리 및 분석은 다양한 산업 발전에 중요한 지원 요소가 되었습니다. 개발 효율성이 높고 성능이 뛰어난 프로그래밍 언어로서 Go 언어는 점차 빅데이터 분야에서 주목을 받고 있습니다. 그러나 Go 언어는 Java, Python 등 다른 언어에 비해 빅데이터 프레임워크에 대한 지원이 상대적으로 부족하여 일부 개발자에게 어려움을 초래했습니다. 이 글에서는 Go 언어에서 빅데이터 프레임워크가 부족한 주된 이유를 살펴보고, 그에 따른 솔루션을 제안하고, 구체적인 코드 예제를 통해 이를 설명하겠습니다. 1. 언어로 이동

AI, 디지털 트윈, 시각화... 2023년 Yizhiwei 가을 제품 출시 컨퍼런스의 하이라이트! Nov 14, 2023 pm 05:29 PM

Yizhiwei의 2023년 가을 제품 출시가 성공적으로 마무리되었습니다! 컨퍼런스의 주요 내용을 함께 살펴보겠습니다! 1. 지능적 포용적 개방성, 디지털 트윈의 생산성 향상 Kangaroo Cloud의 공동 창업자이자 Yizhiwei의 CEO인 Ning Haiyuan은 개회 연설에서 다음과 같이 말했습니다. 올해 회사 전략 회의에서 우리는 제품 연구 개발의 주요 방향을 다음과 같이 정했습니다. '지능형 포괄 개방성' '3대 핵심역량', '지능형 포괄 개방성' 3대 핵심 키워드에 초점을 맞춰 '디지털 트윈을 생산력으로 만든다'는 개발 목표를 더 제시했다. 2. EasyTwin: 사용하기 쉬운 새로운 디지털 트윈 엔진 탐색 1. 0.1에서 1.0까지 디지털 트윈 퓨전 렌더링 엔진을 계속 탐색하여 성숙한 3D 편집 모드, 편리한 대화형 청사진 및 대규모 모델 자산을 갖춘 더 나은 솔루션을 제공합니다.

시작 가이드: Go 언어를 사용하여 빅 데이터 처리 Feb 25, 2024 pm 09:51 PM

오픈 소스 프로그래밍 언어로서 Go 언어는 최근 몇 년 동안 점차적으로 광범위한 관심과 사용을 받아 왔습니다. 단순성, 효율성 및 강력한 동시 처리 기능으로 인해 프로그래머가 선호합니다. 빅데이터 처리 분야에서도 Go 언어는 강력한 잠재력을 갖고 있으며, 대용량 데이터를 처리하고 성능을 최적화하며 다양한 빅데이터 처리 도구 및 프레임워크와 잘 통합될 수 있습니다. 본 글에서는 Go 언어의 빅데이터 처리에 대한 몇 가지 기본 개념과 기법을 소개하고, 구체적인 코드 예시를 통해 Go 언어를 사용하는 방법을 보여드리겠습니다.

C++ 기술의 빅데이터 처리: 인메모리 데이터베이스를 사용하여 빅데이터 성능을 최적화하는 방법은 무엇입니까? May 31, 2024 pm 07:34 PM

빅 데이터 처리에서 인메모리 데이터베이스(예: Aerospike)를 사용하면 컴퓨터 메모리에 데이터를 저장하고 디스크 I/O 병목 현상을 제거하며 데이터 액세스 속도를 크게 높이기 때문에 C++ 애플리케이션의 성능을 향상시킬 수 있습니다. 실제 사례에서는 인메모리 데이터베이스를 사용할 때의 쿼리 속도가 하드 디스크 데이터베이스를 사용할 때보다 몇 배 더 빠른 것으로 나타났습니다.