Java 빅데이터 학습 과정.
1단계: 정적 웹페이지 기본(HTML+CSS)
1. 난이도: 별 1개
2. 기술 지식 포인트 + 무대 프로젝트 작업 + 종합 능력
3.
일반적인 HTML 태그, 일반적인 CSS 레이아웃, 스타일, 위치 지정 등, 정적 페이지 디자인 및 제작 방법 등
2단계: JavaSE + JavaWeb
1 난이도: 별 2개
2. 지식 포인트 + 스테이지 프로젝트 작업 + 종합 기능
3. 주요 기술은 다음과 같습니다:
java 기본 구문, Java 객체 지향(클래스, 객체, 캡슐화, 상속, 다형성, 추상 클래스, 인터페이스, 공통 클래스, 내부 클래스, 공통) 수정자 등), 예외, 컬렉션, 파일, IO, MYSQL(기본 SQL 문 작업, 다중 테이블 쿼리, 하위 쿼리, 저장 프로시저, 트랜잭션, 분산 트랜잭션), JDBC, 스레드, 리플렉션, 소켓 프로그래밍, 열거, 제네릭, 디자인 패턴
4. 설명은 다음과 같습니다.
Java 기본이라고 하는 얕은 것부터 깊은 기술 사항까지, 실제 비즈니스 프로젝트 모듈 분석, 다양한 저장 방법의 설계 및 구현입니다. 이 단계는 이후의 모든 단계가 이 단계를 기반으로 하기 때문에 처음 4단계 중 가장 중요한 단계이며, 빅데이터 학습 밀도가 가장 높은 단계이기도 하다. 이 단계는 팀이 프런트엔드와 백엔드(1단계 기술 + 2단계 기술 종합 응용)를 사용하여 실제 프로젝트를 개발하고 생산하는 첫 번째 단계가 될 것입니다.
세 번째 단계: 프론트 엔드 프레임워크
1. 난이도 프로그램: 별 2개
2. 기술 지식 포인트 + 무대 프로젝트 작업 + 종합 능력
3. 주요 기술은 다음과 같습니다:
Java, Jquery, Annotation Reflection 함께 사용, XML 및 XML 구문 분석, dom4j 구문 분석, jxab, jdk8.0 새로운 기능, SVN, Maven, easyui
4 설명은 다음과 같습니다.
처음 두 단계를 기반으로 정적을 동적으로 변환할 수 있습니다. 물론, 시장 인력 수준의 전문적인 프론트엔드 디자이너가 있다면, 이 디자인 단계에서 우리의 목표는 프론트엔드 기술이 사람들의 작업을 보다 직관적으로 실행할 수 있도록 하는 것입니다. 사고력과 디자인 능력. 동시에 두 번째 단계의 고급 기능도 이 단계에 통합합니다. 학습자를 다음 단계로 끌어올립니다.
4단계: 엔터프라이즈 수준 개발 프레임워크
1. 어렵고 쉬운 프로그램: 별 3개
3. 주요 기술은 다음과 같습니다:
Hibernate, Spring, SpringMVC, log4j slf4j 통합, myBatis, struts2, Shiro, redis , 프로세스 엔진 활동, 크롤러 기술 nutch, lucene, webService CXF, Tomcat 클러스터 및 핫 대기, MySQL 읽기 및 쓰기 분리
다섯 번째 단계: 빅 데이터 첫 입문
1 난이도: 별 세 개
2 .기술적 지식 포인트 + 무대 프로젝트 작업 + 종합적인 역량
3. 주요 기술은 다음과 같습니다:
빅 데이터 1부(빅 데이터란 무엇인가, 응용 시나리오, 빅 데이터베이스 학습 방법, 가상 머신 개념 및 설치 등) , 일반적인 Linux 명령(파일 관리, 시스템 관리, 디스크 관리), Linux Shell 프로그래밍(SHELL 변수, 루프 제어, 응용 프로그램), Hadoop 소개(Hadoop 구성, 독립형 환경, 디렉토리 구조, HDFS 인터페이스, MR 인터페이스, 간단한 SHELL , java 액세스 hadoop ), HDFS(소개, SHELL 사용, IDEA 개발 도구, 완전 분산형 클러스터 구성), MapReduce 응용(중간 계산 과정, Java 작업 MapReduce, 프로그램 실행, 로그 모니터링), Hadoop 고급 응용(YARN 프레임워크 소개, 구성 항목 및 최적화, CDH 도입, 환경 구축), 확장(MAP 측 최적화, COMBINER 사용 방법, TOP K, SQOOP 내보내기, 다른 가상 머신 VM의 스냅샷, 권한 관리 명령, AWK 및 SED 명령 참조)
4. 설명은 다음과 같습니다:
이 단계는 초보자가 빅데이터에 대해 상대적으로 큰 개념을 가질 수 있도록 설계되었습니다. 선수과목에서 JAVA를 공부한 후에는 프로그램이 독립형 컴퓨터에서 어떻게 실행되는지 이해할 수 있습니다. 자, 빅데이터는 어떨까요? 빅데이터는 대규모 머신 클러스터에서 프로그램을 실행해 처리된다. 물론 빅데이터에는 데이터 처리가 필요하므로 마찬가지로 데이터 저장소도 단일 머신 스토리지에서 여러 머신의 대규모 클러스터 스토리지로 변경됩니다. (클러스터가 뭐냐고 물어보시죠. 밥이 큰 솥이 있어요. 혼자 다 먹을 수는 있지만 시간이 오래 걸리거든요. 이제는 다 같이 먹으라고 해요. 혼자 있을 때 사람들을 불러요. , 그런데 사람이 많아지면 크라우드라고 하나요?) 그러면 빅데이터는 크게 빅데이터 저장과 빅데이터 처리로 나눌 수 있습니다. 그래서 이 단계에서 우리 강좌에서는 빅데이터의 표준인 HADOOP을 설계했습니다. 빅데이터의 특징은 WINDOWS 7이나 W10을 자주 사용하는 것이 아니라 현재 가장 널리 사용되는 시스템인 LINUX입니다.
6단계: 빅데이터 데이터베이스
1. 난이도: 별 4개
2. 기술 지식 포인트 + 무대 프로젝트 작업 + 종합 능력
3. 주요 기술은 Hive 도입(Hive 도입, Hive 사용 시나리오, 환경 구축, 아키텍처 설명, 작동 메커니즘), Hive Shell 프로그래밍(테이블 생성, 쿼리문, 파티셔닝 및 버킷팅, 인덱스 관리 및 뷰), Hive 고급 응용 프로그램입니다. (DISTINCT 구현, 그룹바이, 조인, SQL 변환 원리, Java 프로그래밍, 구성 및 최적화), hbase 소개, Hbase SHELL 프로그래밍(DDL, DML, Java 연산 테이블 생성, 쿼리, 압축, 필터), Hbase 모듈 상세 설명( REGION, HREGION SERVER, HMASTER, ZOOKEEPER, ZOOKEEPER 구성, Hbase 및 Zookeeper 통합 소개), HBASE 고급 기능(읽기 및 쓰기 프로세스, 데이터 모델, 스키마 디자인 읽기 및 쓰기 핫스팟, 최적화 및 구성)
4 설명은 다음과 같습니다.
무대 디자인은 빅데이터가 대규모 데이터를 어떻게 처리하는지 모두가 이해할 수 있도록 하는 것입니다. 프로그래밍 시간을 단순화하고 읽기 속도를 높입니다.
어떻게 단순화하나요? 첫 번째 단계에서는 복잡한 비즈니스 상관 관계와 데이터 마이닝이 필요한 경우 MR 프로그램을 직접 작성하는 것이 매우 복잡합니다. 그래서 이 단계에서 우리는 빅데이터 데이터 웨어하우스인 HIVE를 소개했습니다. 여기에 데이터웨어 하우스라는 키워드가 있습니다. 저한테 물어보실 거라는 걸 알기에 먼저 데이터 웨어하우스는 데이터 마이닝과 분석에 사용된다는 점을 말씀드리고 싶습니다. 일반적으로 데이터는 ORACLE, DB2와 같은 대규모 데이터베이스에 저장됩니다. 일반적으로 실시간 온라인 비즈니스로 사용됩니다. 즉, 데이터 웨어하우스 기반의 데이터 분석은 상대적으로 느립니다. 하지만 SQL에 익숙하면 상대적으로 배우기 쉽다는 점이 편리하고, HIVE는 그런 도구, 빅데이터 기반의 SQL 쿼리 도구입니다. 이 단계에는 빅데이터 데이터베이스인 HBASE도 포함되어 있습니다. . 혼란스럽네요. HIVE라는 데이터 "웨어하우스"에 대해 배우지 않으셨나요? HIVE는 MR 기반이므로 쿼리 속도가 상당히 느립니다. HBASE는 빅데이터 기반이므로 실시간 데이터 쿼리가 가능합니다. 하나는 분석용이고 다른 하나는 쿼리용입니다.
7단계: 실시간 데이터 수집
1. 난이도와 쉬운 절차: 별 4개
2. 기술 지식 포인트 + 무대 프로젝트 작업 + 종합 기능
3. 주요 기술은 다음과 같습니다. , KAFKA 소개(메시지 큐, 애플리케이션 시나리오, 클러스터 구성), KAFKA 상세 설명(파티션, 토픽, 수신자, 송신자, ZOOKEEPER와의 통합, 쉘 개발, 쉘 디버깅), KAFKA 고급 활용(Java 개발, 기본 구성, 최적화 프로젝트), 데이터 시각화(그래픽 및 차트 소개, CHARTS 도구 분류, 막대 차트 및 파이 차트, 3D 차트 및 맵), STORM 소개(디자인 아이디어, 응용 시나리오, 처리 절차, 클러스터 설치), STROM 개발(STROM MVN 개발, STORM 로컬 프로그램 작성), STORM 고급(Java 개발, 기본 구성, 최적화 프로젝트), KAFKA 비동기 전송 및 일괄 전송 적시성, KAFKA 글로벌 메시지 순서 지정, STORM 다중 동시성 최적화
4에 대한 설명은 다음과 같습니다.
이전 단계의 데이터 소스 기존의 대규모 데이터 세트를 기반으로 하며, 데이터 처리 및 분석 결과에 일정한 지연이 있습니다. 일반적으로 처리되는 데이터는 전날의 데이터입니다. 예시 시나리오: 웹사이트 핫링크 방지, 고객 계정 이상, 실시간 신용 보고 등의 시나리오를 전날의 데이터를 기반으로 분석하면 어떻게 될까요? 너무 늦었나요? 따라서 이 단계에서는 실시간 데이터 수집 및 분석을 도입했습니다. 여기에는 주로 광범위한 수집 소스를 지원하는 FLUME 실시간 데이터 수집, KAFKA 데이터 수신 및 전송, STORM 실시간 데이터 처리 및 두 번째 수준의 데이터 처리가 포함됩니다.
8단계: SPARK 데이터 분석1. 어렵고 쉬운 절차: 별 다섯개
2. 기술 지식 포인트 + 단계 프로젝트 작업 + 포괄적인 기능
3. 주요 기술은 다음과 같습니다. , 제어문, 기본 함수), 고급 SCALA(데이터 구조, 클래스, 객체, 특성, 패턴 일치, 정규식), 고급 SCALA 사용(고차 함수, Cory 함수, 부분 함수, 꼬리 반복, 자동 순서 함수 등), SPARK 소개(환경 구축, 인프라, 운영 모드), Spark 데이터 세트 및 프로그래밍 모델, SPARK SQL, SPARK 고급(DATA FRAME, DATASET, SPARK STREAMING 원리, SPARK STREAMING 지원 소스, 통합 KAFKA 및 SOCKET , 프로그래밍 모델), SPARK 고급 프로그래밍(Spark-GraphX, Spark-Mllib 기계 학습), SPARK 고급 애플리케이션(시스템 아키텍처, 기본 구성 및 성능 최적화, 오류 및 단계 복구), SPARK ML KMEANS 알고리즘, SCALA 암시적 변환 고급 기능
4. 설명은 다음과 같습니다.
마찬가지로 이전 단계, 주로 첫 번째 단계에 대해 먼저 이야기하겠습니다. HADOOP은 머신러닝, 인공지능 등 MR 기반의 대규모 데이터 세트를 분석하는 데 상대적으로 느립니다. 그리고 반복 계산에는 적합하지 않습니다. SPARK는 MR 대체품으로 분석된다. 대체 방법은? 먼저 작동 메커니즘에 대해 이야기해 보겠습니다. HADOOP은 디스크 스토리지 분석을 기반으로 하고 SPARK는 메모리 분석을 기반으로 합니다. 제가 말하는 내용을 이해하지 못하실 수도 있지만 좀 더 설명하자면 베이징에서 상하이까지 기차를 타고 싶다면 MR은 녹색 열차이고 SPARK는 고속철도 또는 자기부상열차입니다. SPARK는 SCALA 언어를 기반으로 개발되었으므로 SCALA를 가장 잘 지원하므로 본 과정에서는 먼저 SCALA 개발 언어를 배웁니다. 무엇? 다른 개발 언어를 배우고 싶으십니까? 안돼 안돼 안돼! ! ! 한 가지만 말씀드리자면, SCALA는 JAVA를 기반으로 합니다. 기록 데이터 저장 및 분석(HADOOP, HIVE, HBASE)부터 실시간 데이터 저장(FLUME, KAFKA) 및 분석(STORM, SPARK)에 이르기까지 모두 실제 프로젝트에서 상호 의존적입니다.
위 내용은 자바 빅데이터에 대해 배울 점의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!