1. Hadoop 관련 도구
1. Hadoop
Apache의 Hadoop 프로젝트는 거의 빅데이터와 동일시되었습니다. 지속적으로 성장하고 있으며 확장성이 뛰어난 분산 컴퓨팅을 위한 많은 오픈 소스 도구를 갖춘 완전한 생태계가 되었습니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
2.Ambari
Hadoop 생태계의 일부인 이 Apache 프로젝트는 Hadoop 클러스터를 구성, 관리 및 모니터링하기 위한 직관적인 웹 기반 인터페이스를 제공합니다. Ambari 기능을 자체 애플리케이션에 통합하려는 개발자를 위해 Ambari는 REST(Representational State Transfer Protocol)를 활용하는 API를 제공합니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
3.Avro
이 Apache 프로젝트는 풍부한 데이터 구조와 컴팩트한 형식을 갖춘 데이터 직렬화 시스템을 제공합니다. 스키마는 동적 언어와 쉽게 통합되는 JSON으로 정의됩니다.
4.Cascading
Cascading은 Hadoop 기반 애플리케이션 개발 플랫폼입니다. 비즈니스 지원 및 교육 서비스를 제공합니다.
5.Chukwa
Chukwa는 Hadoop을 기반으로 하며 대규모 분산 시스템에서 데이터를 수집하여 모니터링할 수 있습니다. 또한 데이터를 분석하고 표시하는 도구도 포함되어 있습니다.
지원되는 운영 체제: Linux 및 OSX.
6.Flume
Flume은 다른 애플리케이션에서 로그 데이터를 수집한 다음 해당 데이터를 Hadoop에 공급할 수 있습니다. 공식 웹사이트에서는 "강력하고 내결함성이 있으며 조정 및 최적화가 가능한 안정성 메커니즘과 다양한 장애 조치 및 복구 메커니즘을 갖추고 있습니다."라고 주장합니다.
지원되는 운영 체제: Linux 및 OSX.
7.HBase
HBase는 수십억 개의 행과 수백만 개의 열이 있는 초대형 테이블을 위해 설계되었으며 빅 데이터에 대한 무작위 실시간 읽기/쓰기 액세스를 수행할 수 있는 분산 데이터베이스입니다. Google의 Bigtable과 다소 유사하지만 Hadoop 및 HDFS(Hadoop 분산 파일 시스템)를 기반으로 구축되었습니다.
8. 하둡 분산 파일 시스템(HDFS)
HDFS는 하둡용 파일 시스템이지만 독립적인 분산 파일 시스템으로도 사용할 수 있습니다. Java를 기반으로 하며 내결함성, 확장성 및 구성 가능성이 높습니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
9.Hive
ApacheHive는 Hadoop 생태계를 위한 데이터 웨어하우스입니다. 사용자는 SQL과 유사한 언어인 HiveQL을 사용하여 빅데이터를 쿼리하고 관리할 수 있습니다.
10.Hivemall
Hivemall은 Hive용 여러 기계 학습 알고리즘을 결합합니다. 여기에는 데이터 분류, 재귀, 추천, k-최근접 이웃, 이상 탐지 및 기능 해싱을 위한 확장성이 뛰어난 여러 알고리즘이 포함되어 있습니다.
11.Mahout
공식 웹사이트에 따르면 Mahout 프로젝트의 목적은 "확장 가능한 고성능 기계 학습 애플리케이션을 빠르게 구축하기 위한 환경을 만드는 것"입니다. 여기에는 HadoopMapReduce에서 데이터 마이닝을 위한 수많은 알고리즘이 포함되어 있습니다. Scala 및 Spark 환경을 위한 몇 가지 새로운 알고리즘이 있습니다.
12.MapReduce
Hadoop의 핵심 부분인 MapReduce 프로그래밍 모델은 대규모 분산 데이터 세트를 처리하는 방법을 제공합니다. 원래 Google에서 개발했지만 현재는 CouchDB, MongoDB 및 Riak을 포함하여 이 기사에서 다루는 여러 다른 빅 데이터 도구에서 사용됩니다.
13.Oozie
이 워크플로 일정 관리 도구는 Hadoop 작업을 관리하도록 특별히 설계되었습니다. 시간이나 데이터 가용성을 기반으로 작업을 트리거할 수 있으며 MapReduce, Pig, Hive, Sqoop 및 기타 여러 관련 도구와 통합됩니다.
지원되는 운영 체제: Linux 및 OSX.
14.Pig
ApachePig는 분산 빅데이터 분석을 위한 플랫폼입니다. 이는 단순화된 병렬 프로그래밍, 최적화 및 확장성의 장점을 지닌 PigLatin이라는 프로그래밍 언어를 사용합니다.
15.Sqoop
기업에서는 관계형 데이터베이스와 Hadoop 간에 데이터를 전송해야 하는 경우가 많으며 Sqoop은 이 작업을 완료할 수 있는 도구입니다. 데이터를 Hive 또는 HBase로 가져오고 Hadoop에서 관계형 데이터베이스 관리 시스템(RDBMS)으로 내보낼 수 있습니다.
16.Spark
MapReduce의 대안으로 Spark는 데이터 처리 엔진입니다. 이는 메모리에서 사용될 때 MapReduce보다 최대 100배 빠르며, 디스크에서 사용될 때 MapReduce보다 최대 10배 빠르다고 주장합니다. Hadoop 및 Apache Mesos와 함께 또는 독립적으로 사용할 수 있습니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
17.Tez
Tez는 "데이터를 처리하기 위해 작업에 대한 복잡한 방향성 비순환 그래프를 구축할 수 있는 애플리케이션 프레임워크"인 Apache HadoopYARN을 기반으로 구축되었습니다. 이를 통해 Hive와 Pig는 여러 단계가 필요한 복잡한 작업을 단순화할 수 있습니다. 완료합니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
18.Zookeeper
이 빅 데이터 관리 도구는 "구성 정보 유지, 이름 지정, 분산 동기화 제공 및 그룹 서비스 제공에 사용할 수 있는 중앙 집중식 서비스"라고 주장합니다. 서로 조율.
지원되는 운영 체제: Linux, Windows(개발 환경에만 적합) 및 OSX(개발 환경에만 적합).
관련 추천: "FAQ"
2. 빅 데이터 분석 플랫폼 및 도구
19.Disco
Disco는 원래 Nokia에서 개발한 분산 컴퓨팅 프레임워크이며, 이 역시 MapReduce를 기반으로 합니다. 여기에는 수십억 개의 키와 값을 지원하는 분산 파일 시스템과 데이터베이스가 포함됩니다.
지원되는 운영 체제: Linux 및 OSX.
20.HPCC
Hadoop의 대안으로 HPCC와 같은 빅데이터 플랫폼은 매우 빠른 속도와 뛰어난 확장성을 약속합니다. 무료 커뮤니티 버전 외에도 HPCC Systems는 유료 엔터프라이즈 버전, 유료 모듈, 교육, 컨설팅 및 기타 서비스도 제공합니다.
지원되는 운영 체제: Linux.
21. Lumify
국가 보안 기술로 유명한 Altamira Technologies가 소유한 Lumify는 오픈 소스 빅 데이터 통합, 분석 및 시각화 플랫폼입니다. Try.Lumify.io에서 데모 버전을 사용하여 실제로 작동하는 모습을 볼 수 있습니다.
지원되는 운영 체제: Linux.
22.Pandas
Pandas 프로젝트에는 Python 프로그래밍 언어를 기반으로 한 데이터 구조 및 데이터 분석 도구가 포함되어 있습니다. 이를 통해 기업 조직은 빅 데이터 분석 프로젝트에서 R 대신 Python을 사용할 수 있습니다.
지원되는 운영 체제: Windows, Linux 및 OSX.
23.Storm
Storm은 이제 일괄 작업 처리만 제공하는 Hadoop과 달리 실시간 빅 데이터 처리를 제공하는 Apache 프로젝트입니다. 사용자로는 Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard 등이 있습니다.
지원되는 운영 체제: Linux.
3. 데이터베이스/데이터 웨어하우스
24. Blazegraph
Blazegraph는 이전에는 "빅데이터"라고 불렸으며 확장성이 뛰어난 고성능 데이터베이스입니다. 오픈소스 라이선스와 상용 라이선스 모두 사용 가능합니다.
25. Cassandra
원래 Facebook에서 개발한 이 NoSQL 데이터베이스는 현재 Apple, 유럽 핵 연구 기구(CERN), Comcast, Electronic Harbor, GitHub, GoDaddy, Hulu, Instagram, 인튜이트(Intuit), 넷플릭스(Netfilx), 레딧(Reddit) 등. 예를 들어 Apple이 배포한 Cassandra 시스템에는 75,000개 이상의 노드가 포함되어 있으며 10PB 이상의 데이터를 보유하는 등 대규모 클러스터를 지원할 수 있습니다.
26. CouchDB
CouchDB는 "인터넷을 완전히 수용하는 데이터베이스"로 알려져 있으며, 웹 브라우저를 통해 쿼리하고 JavaScript로 처리할 수 있는 데이터를 저장합니다. 분산 네트워크에서 사용하기 쉽고 가용성이 높으며 확장 가능합니다.
지원되는 운영 체제: Windows, Linux, OSX 및 Android.
27.FlockDB
FlockDB는 트위터에서 개발한 매우 빠르고 확장성이 뛰어난 그래프 데이터베이스로 소셜 네트워크 데이터를 저장하는 데 적합합니다. 아직 다운로드가 가능하지만 프로젝트의 오픈 소스 버전은 한동안 업데이트되지 않았습니다.
28.Hibari
이 Erlang 기반 프로젝트는 "강력한 일관성을 보장하는 분산 정렬된 키-값 저장 시스템"이라고 주장합니다. 원래 Gemini Mobile Technologies에서 개발했으며 현재 유럽과 아시아의 여러 통신 사업자가 사용하고 있습니다.
29.Hypertable
Hypertable은 Hadoop과 호환되는 빅데이터 데이터베이스로, 초고성능을 약속하며 Electronic Harbour, Baidu, Gaopeng, Yelp 및 기타 여러 인터넷 회사를 사용하고 있습니다. 비즈니스 지원 서비스를 제공합니다.
지원되는 운영 체제: Linux 및 OSX.
30.Impala
Cloudera는 SQL 기반 Impala 데이터베이스가 "Apache Hadoop을 위한 최고의 오픈 소스 분석 데이터베이스"라고 주장합니다. 독립형 제품으로 다운로드할 수 있으며 Cloudera의 상용 빅데이터 제품의 일부입니다.
지원되는 운영 체제: Linux 및 OSX.
31. InfoBright Community Edition
데이터 분석을 위해 설계된 InfoBright는 압축률이 높은 열 기반 데이터베이스입니다. InfoBright.com은 동일한 코드를 기반으로 유료 제품을 제공하고 지원 서비스를 제공합니다.
지원되는 운영 체제: Windows 및 Linux.
32.MongoDB
천만 건이 넘는 다운로드를 기록한 mongoDB는 매우 인기 있는 NoSQL 데이터베이스입니다. Enterprise 에디션, 지원, 교육 및 관련 제품과 서비스는 MongoDB.com에서 이용 가능합니다.
지원되는 운영 체제: Windows, Linux, OSX 및 Solaris.
위 내용은 빅데이터 분석에는 얼마나 많은 도구가 필요합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!