지난 1년 동안 대형 모델은 매우 빠르게 발전했습니다. 컴퓨팅 성능과 데이터의 축적으로 인해 모델에 일반적인 구성과 질문에 답하는 능력이 부여되어 선두를 달리고 있습니다. 사람들은 늘 꿈꿔오던 인공지능의 단계에 들어섰습니다. 예를 들어, 대형 언어 모델과 대화를 나누면 무딘 로봇이 아니라 살과 피가 섞인 사람을 마주하고 있다는 느낌을 받게 됩니다. 그것은 우리의 상상력을 위한 더 많은 공간을 열어줍니다. 원래의 인간-컴퓨터 상호 작용에서는 키보드와 마우스를 사용하여 몇 가지 형식 지정 방법을 통해 기계에 지침을 전달해야 했습니다. 이제 사람들은 언어를 통해 컴퓨터와 상호작용할 수 있고, 기계는 우리가 의미하는 바를 이해하고 응답할 수 있습니다.
트렌드를 따라가기 위해 많은 기술 기업들이 대형 모델 연구에 집중하기 시작했습니다. 2023년은 아이폰의 출시로 모바일 인터넷의 새로운 시대가 열린 것처럼 인공지능 원년으로 꼽힌다. 이번의 진정한 혁신은 대규모 컴퓨팅 파워와 대용량 데이터의 적용에 있습니다.
모델 구조의 관점에서 볼 때 Transformer 구조는 실제로 오랫동안 출시되었습니다. 실제로 GPT 모델은 Bert 모델보다 1년 먼저 발표되었습니다. 그러나 당시 컴퓨팅 성능의 한계로 인해 GPT는 Bert보다 효율성이 훨씬 낮았습니다. 따라서 Bert가 먼저 인기를 얻었고 번역에 사용되었습니다. 아주 좋은 결과. 하지만 올해의 초점은 GPT였습니다. 그 이유는 하드웨어 제조업체의 노력과 패키징 및 스토리지 입자의 발전으로 인해 매우 높은 컴퓨팅 성능을 사용할 수 있기 때문입니다. 함께, 그들은 더 많은 데이터에 대한 심층적인 이해를 촉진하고 AI에서 획기적인 결과를 가져옵니다. 기본 플랫폼의 강력한 지원을 바탕으로 알고리즘 학생들은 모델을 보다 편리하고 효율적으로 개발하고 반복하여 신속한 모델 진화를 촉진할 수 있습니다.
일반적인 모델 개발 주기는 아래 그림과 같습니다.
많은 사람들이 모델 훈련이 가장 중요한 단계라고 생각합니다. 하지만 실제로는 모델 훈련 이전에 수집, 정리, 관리해야 할 데이터의 양이 많습니다. 이 과정에서 더티 데이터가 있는지, 데이터의 통계적 분포가 대표성이 있는지 등 검증해야 할 단계가 많다는 것을 알 수 있다. 모델이 나온 후에는 테스트하고 검증해야 합니다. 이는 데이터를 검증하여 모델의 효율성에 대한 피드백을 제공하는 데에도 사용됩니다.
더 나은 기계 학습은 80% 데이터에 20% 모델을 더한 것이며, 초점은 데이터에 있어야 합니다.
이 역시 모델 개발의 진화적 추세를 반영합니다. 원래 모델 개발은 모델 중심이었지만 이제는 데이터 중심이 되었습니다.
딥러닝 초창기에는 지도학습(Supervised Learning)이 주안점이었고, 가장 중요한 것은 라벨링된 데이터를 갖는 것이었습니다. 레이블이 지정된 데이터는 두 가지 범주로 나누어집니다. 하나는 훈련 데이터이고 다른 하나는 검증 데이터입니다. 학습 데이터를 사용하여 모델을 학습한 다음 모델이 테스트 데이터에 대해 좋은 결과를 제공할 수 있는지 확인합니다. 사람들이 데이터에 레이블을 지정해야 하기 때문에 데이터에 레이블을 지정하는 비용은 매우 높습니다. 모델의 효과를 높이려면 모델 구조에 많은 시간과 인력을 투자하고, 구조 변경을 통해 모델의 일반화 능력을 향상시키며, 모델의 과적합을 줄여야 하는 것이 바로 모델입니다. 중심 개발 패러다임.
데이터가 축적되고 컴퓨팅 능력이 향상되면서 점차 비지도 학습이 사용되기 시작했으며, 대용량 데이터를 통해 모델이 데이터에 존재하는 관계를 자율적으로 발견할 수 있게 되었습니다. 이때 데이터 중심 개발에 들어갔습니다. 어형 변화표.
데이터 중심 개발 모델에서는 모델 구조가 유사하며 기본적으로 Transformers의 스택이므로 데이터를 어떻게 활용하는지에 더 많은 관심이 집중됩니다. 데이터를 활용하는 과정에서 데이터 정리와 비교 작업이 많이 이뤄지게 되는데, 이는 엄청난 양의 데이터가 필요하기 때문에 많은 시간이 소요될 것이다. 데이터를 정확하게 제어하는 방법에 따라 모델 수렴 및 반복 속도가 결정됩니다.
알리바바 클라우드는 항상 AI와 빅데이터의 통합을 강조해왔습니다. 따라서 우리는 고성능 AI 컴퓨팅 성능을 제공하는 고대역폭 GPU 클러스터와 비용 효율적인 스토리지 및 데이터 관리 기능을 제공하는 CPU 클러스터를 포함하여 매우 우수한 인프라를 갖춘 플랫폼을 구축했습니다. 또한 빅데이터 플랫폼, AI 플랫폼, 고성능 플랫폼, 클라우드 네이티브 플랫폼 등을 포함하는 빅데이터 및 AI 통합 PaaS 플랫폼을 구축했습니다. 엔진 부분에는 스트리밍 컴퓨팅, 빅데이터 오프라인 컴퓨팅 MaxCompute 및 PAI가 포함됩니다.
서비스 레이어에는 대형 모델 애플리케이션 플랫폼인 Bailian과 오픈 소스 모델 커뮤니티인 ModelScope가 있습니다. Alibaba는 모델 커뮤니티 공유를 적극적으로 장려해 왔으며 서비스로서의 모델 개념을 사용하여 더 많은 AI 사용자가 이러한 모델의 기본 기능을 사용하여 AI 애플리케이션을 신속하게 구축할 수 있도록 영감을 주기를 희망하고 있습니다.
다음 두 가지 사례를 통해 빅데이터와 AI의 연계가 필요한 이유를 설명하겠습니다.
대형 모델 질의 응답 시스템에서는 기본 모델을 먼저 사용한 후 대상 문서를 삽입 및 삽입해야 합니다. 결과는 벡터 데이터베이스에 저장됩니다. 문서 수가 매우 많을 수 있으므로 포함하려면 일괄 처리 기능이 필요합니다. 기본 모델의 추론 서비스 자체도 리소스를 많이 소모합니다. 물론 이 역시 기본 모델의 크기와 병렬화 방법에 따라 다릅니다. 생성된 임베딩은 모두 벡터 데이터베이스에 쏟아져 들어가고, 질의 역시 벡터화되어야 하며, 이후 벡터 검색을 통해 질문과 답변과 관련이 있을 수 있는 지식이 벡터 데이터베이스에서 추출됩니다. 이를 위해서는 추론 서비스의 매우 우수한 성능이 필요합니다.
벡터를 추출한 후에는 벡터가 표현하는 문서를 컨텍스트로 활용한 다음 이 대형 모델을 제약하고 이를 기반으로 질문과 답변을 해야 합니다. 답변의 효과는 얻은 결과보다 훨씬 좋습니다. 자신만의 검색 방법으로 답을 찾을 수 있습니다.
위 과정에서 신속한 임베딩 생성을 위해서는 오프라인 분산형 빅데이터 플랫폼이 필요하고, 전체 프로세스를 연결해 대형 모델 질의응답 시스템을 구성하려면 대형 모델 학습 및 서비스를 위한 AI 플랫폼이 필요합니다. .
이 모델은 모든 사람의 관심과 성격이 변하기 때문에 높은 시의성이 요구되는 경우가 많으며, 이러한 변화를 포착해야 하기 때문에 스트리밍 컴퓨팅 시스템은 APP에서 얻은 데이터를 분석한 후 추출된 기능을 통해 모델이 온라인으로 지속적으로 학습하도록 합니다. 새로운 데이터가 들어올 때마다 모델이 업데이트되고 새로운 모델을 통해 고객에게 서비스를 제공합니다. 따라서 이 시나리오에서는 스트리밍 컴퓨팅 기능은 물론 모델 제공 및 교육 기능도 필요합니다.
위의 사례를 통해 AI와 빅데이터의 결합이 필연적인 발전 추세가 되었음을 알 수 있습니다. 이런 개념을 바탕으로 먼저 빅데이터 플랫폼과 AI 플랫폼을 함께 관리할 수 있는 업무공간이 필요하다. 이것이 AI 업무공간이 탄생한 이유이다.
이 AI 작업 공간에서는 Flink 클러스터, 오프라인 컴퓨팅 클러스터 MaxCompute, AI 플랫폼, 컨테이너 서비스 컴퓨팅 플랫폼 등을 지원합니다.
빅데이터와 AI 관리를 통합하는 것은 첫 번째 단계일 뿐입니다. 더 중요한 것은 이를 워크플로에서 연결하는 것입니다. SDK, 그래픽, GUI, SPEC 작성 등 다양한 방법으로 워크플로우를 구축할 수 있습니다. 워크플로우의 노드는 빅데이터 처리 노드일 수도 있고 AI 처리 노드일 수도 있어 복잡한 프로세스가 잘 연결될 수 있습니다.
효율성을 더욱 높이고 비용을 절감하려면 서버리스 클라우드 네이티브 서비스가 필요합니다. Severless가 무엇인지는 위 이미지에 자세히 설명되어 있습니다. 클라우드 네이티브에는 아무것도 공유하지 않는 것(비클라우드 접근 방식)부터 모든 것을 공유하는 것(매우 클라우드 접근 방식)까지 다양한 수준이 있습니다. 레벨이 높을수록, 리소스 공유 정도가 높아질수록 단위 컴퓨팅 비용은 낮아지지만 시스템에 대한 부담은 커집니다.
빅 데이터 및 데이터베이스 분야도 비용 고려 사항을 기반으로 지난 2년 동안 천천히 서버리스로 전환하기 시작했습니다. 원래 클라우드상의 데이터베이스 등 클라우드에서 사용되는 서버도 인스턴스화 형태로 존재했다. 이러한 인스턴스 뒤에는 이 인스턴스의 CPU 및 코어 수와 같은 리소스의 그림자가 있습니다. 천천히 점진적으로 서버리스로 전환하는 첫 번째 수준은 단일 테넌트 컴퓨팅입니다. 이는 클라우드에 클러스터를 설정한 다음 그 안에 빅데이터 또는 데이터베이스 플랫폼을 배포하는 것을 의미합니다. 하지만 이 클러스터는 싱글 테넌트(Single-tenant)입니다. 즉, 물리적 머신을 다른 사람들과 공유하는 가상 머신으로, 이를 빅 데이터 플랫폼으로 사용하는 것을 싱글 테넌트(Single-tenant) 컴퓨팅이라고 합니다. 스토리지, 단일 테넌트 관리 및 제어. 사용자가 얻는 것은 클라우드 상의 탄력적인 ECS 머신이지만, 빅데이터 관리와 운영 및 유지 관리 솔루션은 스스로 수행해야 합니다. EMR은 이와 관련하여 고전적인 솔루션입니다.
싱글 테넌트 스토리지에서 데이터 레이크 솔루션인 공유 스토리지로 천천히 옮겨갈 예정입니다. 데이터는 더욱 공유되는 빅데이터 시스템에 있으며 계산은 클러스터를 동적으로 끌어오는 것입니다. 계산이 완료된 후 클러스터는 죽지만 데이터는 안정적인 원격 저장소 측에 있으므로 데이터는 죽지 않습니다. . 공유 저장공간입니다. 대표적인 것은 데이터 레이크 DLF와 서버리스 EMR 솔루션입니다.
가장 극단적인 것은 Share Everything입니다. BigQuery나 Alibaba Cloud의 MaxCompute를 사용하면 일부 가상화된 프로젝트를 관리하는 플랫폼이 표시되고, 플랫폼은 이를 기반으로 쿼리를 수행합니다. 쿼리.
이것은 많은 이점을 가져올 수 있습니다. 예를 들어, 빅 데이터 계산에는 노드가 많고 사용자 코드가 필요하지 않습니다. 왜냐하면 이러한 노드는 실제로 조인 및 집계기와 같은 일부 기본 제공 연산자이기 때문입니다. 이러한 결정적 결과는 결정적이기 때문에 상대적으로 무거운 샌드박스가 필요하지 않습니다. 엄격한 테스트를 거쳐 악성 코드나 임의의 UDF 코드가 포함되어 있지 않은 연산자를 사용하면 가상화로 인한 오버헤드를 제거할 수 있습니다.
UDF의 장점은 유연성으로 풍부한 데이터를 처리할 수 있고 데이터 양이 많을 때 확장성이 좋습니다. 그러나 UDF가 가져올 과제 중 하나는 보안과 격리의 필요성입니다.
Google의 BigQuery와 MaxComputer는 모두 공유 아키텍처를 기반으로 합니다. 우리는 지속적인 기술 개선을 통해서만 리소스를 더 밀접하게 사용할 수 있고 컴퓨팅 전력 비용을 절약할 수 있으며 더 많은 컴퓨팅 전력을 절약할 수 있다고 믿습니다. 기업은 이 데이터를 소비할 여유가 있어 모델 교육에 데이터 사용을 촉진할 수 있습니다.
빅데이터와 AI를 업무공간을 통해 통일적으로 관리하고, PAI-flow를 통해 연결할 수 있을 뿐만 아니라, 모두 공유를 통해 통일된 스케줄링을 수행할 수 있는 것은 바로 모든 것이 공유되기 때문입니다. 이러한 방식으로 기업 AI + 빅데이터의 연구 개발 비용이 더욱 절감될 것입니다.
이 시점에서 해야 할 일이 많습니다. K8S 자체의 스케줄링은 빅데이터에 대한 큰 과제에 직면하게 될 마이크로서비스를 지향합니다. 빅데이터의 서비스 스케줄링 세분성은 매우 작기 때문에 많은 작업이 몇 초에서 수십 초 동안만 살아남는 것이 큰 영향을 미칩니다. 일정 규모와 일정에 미치는 영향에 따라 전반적인 압력이 몇 배로 증가할 것입니다. 우리가 시작한 Koordinator 오픈 소스 프로젝트는 K8S 생태계에서 스케줄링 기능을 개선하고 빅데이터와 AI를 통합하는 것입니다.
또 다른 중요한 작업은 여러 임차인을 안전하게 격리하는 것입니다. K8S의 서비스 계층과 제어 계층에서 멀티 테넌시를 구현하는 방법과 네트워크에서 레이크 멀티 테넌시를 구현하여 여러 사용자가 하나의 K8S에서 서비스를 제공하고 각 사용자의 데이터와 리소스를 효과적으로 사용할 수 있도록 하는 방법 외딴.
알리바바는 앞서 소개한 두 가지 기술을 활용해 모든 자원을 컨테이너화를 통해 노출시켜 사용자가 빅데이터 플랫폼과 AI 플랫폼 활용을 원활하게 할 수 있도록 하는 컨테이너 서비스인 ACS를 출시했습니다. 이는 다중 테넌트 방식이며 빅 데이터 요구 사항을 지원할 수 있습니다. 빅 데이터의 일정 요구 사항은 마이크로서비스 및 AI의 일정 요구 사항보다 몇 배 더 높으므로 잘 수행해야 합니다. 이를 바탕으로 ACS 제품은 고객이 자원을 잘 관리할 수 있도록 도와줍니다.
회사는 많은 요구에 직면해 있으며 리소스를 더욱 신중하게 관리해야 합니다. 예를 들어, 기업은 여러 부서와 하위 팀으로 나누어져 있으며, 대규모 모델을 구축할 때 리소스는 여러 방향으로 분할되며, 각 팀은 이 기본 모델이 어떤 시나리오에서 잘 사용될 수 있는지 확인하기 위해 다양한 혁신을 수행하게 됩니다. 하지만 어떤 순간에는 큰 일을 하는 데 집중하고 모든 컴퓨팅 성능과 리소스를 모아 기본 모델의 다음 반복을 훈련하고 싶습니다. 이 문제를 해결하기 위해 우리는 다단계 할당량 관리를 도입했습니다. 즉, 요구 사항이 더 높은 작업이 도착하면 더 높은 수준에서 아래의 모든 하위 할당량을 병합하고 통합할 수 있습니다.
실제로 AI 시나리오에는 많은 특수성이 있습니다. 동기 계산이 필요한 경우가 많고, 동기 계산은 지연에 매우 민감하며, AI 계산 밀도가 높아서 네트워크가 필요합니다. 매우 높습니다. 컴퓨팅 파워를 보장하려면 데이터를 제공하고 기울기 정보를 교환해야 하며, 모델이 병렬이면 더 많은 것들이 교환됩니다. 이러한 경우 통신에 문제가 없도록 하기 위해 토폴로지 인식 스케줄링이 필요합니다.
예를 들어 모델 학습의 All Reduce 링크에서 무작위 스케줄링을 수행하면 크로스 포트 스위치 연결이 많이 발생하지만 순서를 신중하게 제어하면 크로스 포트 스위치 연결이 매우 많아집니다. 깨끗하므로 지연이 발생하지 않습니다. 상위 스위치에서는 충돌이 발생하지 않으므로 잘 보장될 수 있습니다.
이러한 최적화 후에 성능이 크게 향상될 수 있습니다. 이러한 토폴로지 인식 일정을 전체 플랫폼 관리자에게 어떻게 전달할 것인지도 AI가 데이터 플랫폼 관리를 늘릴 때 고려해야 할 문제이다.
앞서 소개한 것은 리소스 및 플랫폼 관리입니다. 데이터 관리도 중요합니다. 우리가 작업해 온 것은 데이터 거버넌스, 데이터 품질 등과 같은 데이터 웨어하우스 시스템입니다. 데이터 시스템을 AI 시스템과 연결하려면 데이터 웨어하우스가 AI 친화적인 데이터 링크를 제공해야 합니다. 예를 들어 AI 개발 과정에서 Python 생태계가 사용됩니다. 데이터 측에서는 Python SDK를 통해 이 플랫폼을 어떻게 사용할 수 있습니까? Python에서 가장 널리 사용되는 라이브러리는 pandas와 유사한 데이터 프레임 데이터 구조입니다. Python에 익숙한 모든 AI 개발 작업자가 데이터 플랫폼을 잘 사용할 수 있도록 빅 데이터 엔진의 클라이언트 측을 pandas 인터페이스로 패키징할 수 있습니다. . 이는 우리가 올해 MaxCompute에서 출시한 MaxFrame 프레임워크의 철학이기도 합니다.
데이터 처리 시스템은 비용에 매우 민감한 경우가 있는데, 데이터 웨어하우스 시스템을 저장하기 위해 고밀도 스토리지 시스템을 사용하는 경우도 있습니다. 스토리지 시스템 클러스터는 네트워크와 GPU에 대한 요구가 매우 높으며 두 시스템이 스토리지와 계산에서 분리될 가능성이 높습니다. 우리의 데이터 시스템은 거버넌스 및 관리에 편향될 수 있고, 컴퓨팅 시스템은 계산에 편향될 수 있습니다. 둘 다 K8S의 관리하에 있지만 계산 중에 데이터를 기다리지 않기 위해 우리는 원격 연결 방식일 수 있습니다. 데이터 설정 가속 DataSetAcc는 실제로 원격 스토리지 노드의 데이터에 원활하게 연결되는 데이터 캐시로, 알고리즘 엔지니어가 계산을 위해 뒤에서 로컬 메모리나 SSD로 데이터를 가져오는 데 도움이 됩니다.
위의 방법을 통해 AI와 빅데이터 플랫폼이 유기적으로 결합되면서 우리는 몇 가지 혁신을 이룰 수 있습니다. 예를 들어, 많은 일반적인 의미 계열에 대한 모델 훈련을 지원할 때 인터넷 데이터에는 중복이 많기 때문에 많은 데이터를 정리해야 하므로 빅데이터 시스템을 통해 데이터 중복을 제거하는 방법이 중요합니다. 두 시스템을 유기적으로 결합했기 때문에 빅데이터 플랫폼에서 데이터 정리가 쉽고, 그 결과를 즉시 모델 학습에 적용할 수 있습니다.
이전 글에서는 주로 빅데이터가 AI 모델 훈련을 어떻게 지원하는지 소개했습니다. 한편, AI 기술은 데이터 통찰력을 지원하고 BI + AI 데이터 처리 모델로 전환하는 데 사용될 수도 있습니다.
데이터 분석가가 더 쉽게 분석을 구축하는 데 도움이 될 수 있습니다. 원래는 SQL을 작성하고 데이터 시스템과 상호 작용하는 도구를 사용하는 방법을 배워야 할 수도 있습니다. 그러나 AI 시대는 인간과 컴퓨터의 상호작용이 일어나는 방식을 바꾸었고, 자연어를 통해 데이터 시스템과 상호작용할 수 있게 됐다. 예를 들어, Copilot 프로그래밍 도우미는 SQL 생성을 지원하고 데이터 개발 프로세스의 다양한 단계를 완료하는 데 도움을 주어 개발 효율성을 크게 향상시킵니다.
또한 AI를 통해 데이터 인사이트도 가능합니다. 예를 들어, 데이터 조각, 고유 키가 몇 개 있는지, 시각화에 적합한 방법은 무엇인지 모두 AI를 사용하여 얻을 수 있습니다. AI는 모든 각도에서 데이터를 관찰하고 이해하며, 자동 데이터 탐색, 지능형 데이터 쿼리, 차트 생성, 원클릭 분석 보고서 생성 등을 실현할 수 있는 지능형 분석 서비스입니다.
최근 몇 년간 빅데이터와 AI를 중심으로 매우 만족스러운 기술 발전이 있었습니다. 이러한 추세에 맞서기 위해서는 빅데이터와 AI를 연결하는 것이 필요합니다. 두 가지가 서로 보완되어야만 AI 반복 가속화 및 데이터 이해가 향상될 수 있습니다.
위 내용은 빅데이터 AI 통합해석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!