지난 몇 년간 컨테이너 기술로 대표되는 클라우드 네이티브 분야는 큰 관심과 발전을 받아왔습니다. 지금까지 컨테이너화는 기업이 비용을 절감하고 효율성을 높이는 중요한 수단입니다. 전체 도메인이 기본적으로 완성되었습니다. 컨테이너화 과정에서 서비스 배포와 운영 및 유지 관리 방법이 이전 ECS 모드에서 컨테이너화 모드로 원활하게 전환되는 한편, 회사는 리소스 활용 및 R&D 효율성 측면에서 많은 효율성 향상을 달성했습니다. .
Dewu는 AI와 빅데이터 기술을 기반으로 한 검색 엔진과 개인화 추천 시스템이 비즈니스 개발을 강력하게 지원하므로 알고리즘 도메인의 애플리케이션이 비즈니스 애플리케이션의 큰 부분을 차지합니다. 컨테이너화 과정에서 알고리즘 응용 서비스와 일반 서비스의 R&D 프로세스의 차이점을 고려하고 알고리즘 도메인에서 R&D 학생들의 요구 사항을 철저히 조사한 결과 Dewu Cloud 네이티브 AI 플랫폼-KubeAI 플랫폼을 구축했습니다. 알고리즘 영역의 R&D 시나리오. 지속적인 기능 반복과 지원 시나리오의 지속적인 확장을 통해 KubeAI는 현재 이력서, 검색 추천, 위험 제어 알고리즘, 데이터 분석 등 AI 기능과 관련된 비즈니스 영역을 지원하고 컨테이너화를 성공적으로 완료하여 리소스 활용도 및 R&D 효율성을 모두 향상시켰습니다. 위의 개선 사항을 통해 좋은 결과를 얻었습니다. 이 기사를 통해 모든 사람은 KubeAI의 구현 프로세스를 이해할 수 있습니다.
AI 비즈니스는 일반적으로 모델 개발 프로세스를 다음과 같은 단계로 요약할 수 있습니다.
수요 시나리오: 이 과정에서 해결해야 할 문제는 무엇이며, 어떤 시나리오를 위해 제공되는 기능인지, 기능/서비스의 입력은 무엇인지, 출력은 무엇인지? 예를 들어 어떤 브랜드의 신발을 식별하거나 품질을 검사해야 하는지, 브랜드의 제품 기능은 무엇인지, 샘플의 기능 크기는 무엇인지, 기능 유형 등이 있습니다. 시나리오마다 샘플 데이터 및 사용되는 처리 알고리즘에 대한 요구 사항이 다릅니다. 데이터 준비: 시나리오 수요 분석 결과에 따라 다양한 방법(온라인/오프라인/모의 등)을 통해 샘플 데이터를 획득하고 데이터에 대해 필요한 정리, 라벨링 및 기타 작업을 수행합니다. 이후의 모든 프로세스가 데이터를 기반으로 수행되기 때문에 이 프로세스는 AI 사업 개발의 기초가 됩니다. 알고리즘 결정 및 훈련 스크립트 작성: 비즈니스 목표에 대한 이해를 바탕으로 이 링크에서 알고리즘 학생들은 적절한 알고리즘을 선택하고 과거 경험이나 현장 연구 및 실험을 바탕으로 모델 훈련 스크립트를 작성합니다. 결과. 모델 훈련: 알고리즘 모델의 경우 f(x)=wx+b의 w 및 b와 마찬가지로 이 공식에는 많은 매개변수가 있습니다. 학습이란 모델이 높은 인식률을 갖도록 하기 위해 대량의 샘플 데이터를 사용하여 최적의 매개변수를 찾는 과정입니다. 모델 훈련은 AI 비즈니스 개발 과정에서 매우 중요한 부분이다. 비즈니스 목표 달성은 모델의 정확성에 달려 있다고 할 수 있다. 따라서 이 링크는 다른 링크보다 더 많은 시간, 에너지, 리소스가 필요하며, 최고의 모델 정확도와 예측 정확도를 달성하기 위해서는 반복적인 실험 훈련이 필요합니다. 이 프로세스는 일회성 이벤트가 아니라 비즈니스 시나리오 업데이트 및 데이터 업데이트에 따라 주기적으로 수행되어야 합니다. 알고리즘 모델의 개발 및 훈련을 위해 TensorFlow, PyTorch, MXNet 등과 같이 업계에서 선택할 수 있는 몇 가지 주류 AI 엔진이 있습니다. 이러한 엔진은 알고리즘 개발자가 복잡한 모델을 배포할 수 있도록 어느 정도 API 지원을 제공할 수 있습니다. 훈련하거나 하드웨어를 일부 최적화하여 모델 훈련 효율성을 향상시킵니다. 모델 훈련의 결과는 모델 파일을 얻는 것입니다. 이 파일의 내용은 모델의 매개변수를 저장하는 것으로 이해될 수 있습니다. 모델 평가: 과도한 편차로 인한 모델 과소적합 또는 과도한 분산으로 인한 과적합을 방지하기 위해 일반적으로 개발자가 모델의 일반화 능력을 평가하도록 안내하는 일부 평가 지표가 필요합니다. 정밀도, 재현율, ROC 곡선/AUC, PR 곡선 등과 같이 일반적으로 사용되는 평가 지표 모델 배포: 반복적인 훈련과 평가를 거쳐 온라인/생산 데이터의 비즈니스 처리에 도움이 되는 이상적인 모델을 얻을 수 있습니다. 이를 위해서는 입력 데이터를 수신하고 추론 결과를 제공하기 위해 서비스 또는 작업 형태로 모델을 배포해야 합니다. 모델 서비스는 모델이 준비된 후 전처리된 데이터에 대한 추론 계산을 수행하는 온라인 서비스 스크립트입니다. 모델 서비스가 출시된 후 데이터 특성 변경, 알고리즘 업그레이드, 온라인 추론 서비스 스크립트 업그레이드, 추론 지표에 대한 새로운 비즈니스 요구 사항 등으로 인해 모델 서비스를 반복해야 합니다. 이 반복 프로세스에는 모델의 재교육 및 재평가가 필요할 수도 있으며 추론 서비스 스크립트의 반복적인 업그레이드일 수도 있습니다.지난해부터 Dewu의 다양한 도메인에서 비즈니스 서비스의 컨테이너화 구현을 점진적으로 추진해 왔습니다. 컨테이너화 프로세스 중 배포 방법 변경으로 인한 사용자 운영 습관의 변화를 줄이기 위해 퍼블리싱 플랫폼의 배포 프로세스를 계속 사용하여 컨테이너 배포와 ECS 배포 간의 차이점을 보호합니다.
CI 프로세스에서는 다양한 개발 언어 유형에 따라 다양한 컴파일 및 구성 템플릿이 사용자 정의됩니다. 소스 코드 컴파일부터 컨테이너 이미지 제작까지 컨테이너 플랫폼 레이어에서 균일하게 완료되어 일반 R&D 학생들의 문제를 해결합니다. 컨테이너 관련 지식이 부족하여 프로젝트 코드를 컨테이너 이미지로 만들 수 없는 문제. CD 프로세스 중에는 애플리케이션 유형 수준, 환경 수준, 환경 그룹 수준에서 구성의 계층적 관리를 수행합니다. 배포를 실행할 때 다중 계층 구성을 Helm Chart의 value.yaml에 병합하고 오케스트레이션 파일을 컨테이너 클러스터. 사용자는 실제 필요에 따라 해당 환경 변수를 설정하고 배포를 제출한 다음 애플리케이션 클러스터 인스턴스(ECS 서비스 인스턴스와 유사한 컨테이너 인스턴스)를 얻기만 하면 됩니다.
애플리케이션 클러스터의 운영 및 유지 관리를 위해 컨테이너 플랫폼은 ECS 인스턴스에 로그인하는 것과 마찬가지로 WebShell을 통해 컨테이너 인스턴스에 로그인하는 기능을 제공합니다. 이는 컨테이너 플랫폼의 애플리케이션 프로세스 관련 문제를 해결하는 데 편리합니다. 파일 업로드 및 다운로드, 인스턴스 재시작, 재구성, 리소스 모니터링 등의 운영 및 유지 관리 기능도 제공합니다.
AI 사업(이력서, 검색 및 추천, 리스크 관리 알고리즘 서비스 등)은 상대적으로 규모가 큰 사업으로 일반 사업 서비스와 함께 컨테이너화 과정에 참여하여 점차적으로 커뮤니티의 폭포 흐름과 다이아몬드 위치를 완성해 왔습니다. 트랜잭션 핵심 시나리오를 나타내는 서비스 마이그레이션. 컨테이너화 후 테스트 환경의 리소스 활용도가 크게 향상되고, 프로덕션 환경도 크게 개선되었으며, 운영 및 유지 관리 효율성이 두 배로 향상되었습니다.
Dewu의 컨테이너화 과정은 회사의 기술 시스템의 급속한 발전을 동반합니다. 이로 인해 초기 미성숙한 AI 서비스 연구 및 개발 프로세스에 대한 컨테이너화 요구가 더 많아졌습니다. 온라인 추론 서비스의 컨테이너화를 통해 우리는 모델 개발 과정에서 알고리즘 학생들이 직면하는 고충점과 어려움을 보았습니다.
고점 1: 모델 관리와 추론 서비스 관리가 일관성이 없습니다. 대부분의 CV 모델은 데스크톱 컴퓨터에서 학습된 후 OSS에 수동으로 업로드된 다음 OSS의 모델 파일 주소가 온라인 추론 서비스에 구성됩니다. 대부분의 Soutui 모델은 PAI에서 교육을 받았지만 OSS에 수동으로 저장되며 출시 시 CV와 유사합니다. 모델 학습 및 출시 과정에서 모델 제품의 관리가 일관되지 않음을 알 수 있으며, 어떤 서비스에 모델이 배포되었는지 추적할 수 없고, 서비스가 어떤 서비스에 배포되었는지 직관적으로 확인하는 것도 불가능합니다. 혹은 모델이 여러개 있어서 모델 버전 관리가 불편합니다.
Pain Point 2: 모델 개발 환경을 준비하는 데 시간이 오래 걸리고, 리소스 적용 및 활용에 있어서 유연성이 부족합니다. 컨테이너화 이전에는 일반적으로 리소스를 ECS 인스턴스 형태로 제공했는데, 리소스 신청을 위한 과정을 거쳐야 했고, 신청 후에는 각종 초기화 작업, 소프트웨어 설치, 의존성 설치, 데이터 전송 등의 과정을 거쳐야 했습니다. 알고리즘 연구 작업에 사용되는 소프트웨어 라이브러리는 크기가 크므로 설치도 더 복잡합니다. ECS를 설치한 후 나중에 자원이 부족할 경우 다시 신청하고 같은 과정을 다시 거쳐야 하는 비효율적이다. 동시에, 리소스 적용에는 할당량(예산) 제약이 적용되며 자율 관리, 유연한 적용 및 요청 시 릴리스를 위한 메커니즘이 부족합니다.
고점 3: 클라우드 네이티브에서 지원하는 일부 모델 솔루션을 시도하기가 어렵습니다. 클라우드 네이티브 기술이 다양한 분야에서 지속적으로 구현됨에 따라 Kubeflow 및 Argo Workflow와 같은 솔루션은 AI 시나리오에 대한 우수한 지원을 제공합니다. 예: tfjob-operator는 CRD 형식의 TensorFlow 프레임워크를 기반으로 분산 교육 작업을 관리할 수 있습니다. 사용자는 Kubernetes에 교육 작업을 제출하기 전에 해당 구성 요소(Chief, PS, Worker 등)의 매개변수만 설정하면 됩니다. 무리. 컨테이너화 이전에 알고리즘 수강생이 이 솔루션을 사용하려면 Docker, Kubernetes 및 기타 컨테이너 관련 지식을 숙지하고 마스터해야 했으며 일반 사용자로서 이 기능을 사용할 수 없었습니다.
고점 4: 알고리즘이 아닌 부서에서 알고리즘을 빠르게 검증하고 싶을 때 이를 잘 지원할 수 있는 플랫폼을 찾을 수 없습니다. AI의 기능은 분명히 다양한 비즈니스 분야, 특히 일부 성숙한 알고리즘에서 사용됩니다. 비즈니스 팀은 이를 쉽게 사용하여 비즈니스가 더 나은 결과를 달성하는 데 도움이 되는 몇 가지 기본 지표 예측 또는 분류 예측을 수행할 수 있습니다. 이때, 이기종 리소스(CPU/GPU/스토리지/네트워크 등) 및 알고리즘 모델 관리에 대한 이러한 시나리오의 요구를 충족하고 사용자에게 즉시 사용할 수 있는 AI 관련 기능을 제공할 수 있는 플랫폼이 필요합니다. 기능을 사용하세요.
위의 문제점과 어려운 문제를 종합 및 분석하고, 컨테이너화 과정에서 알고리즘 학생들이 제시한 컨테이너 플랫폼에 대한 기타 요구 사항(예: 모델에 대한 통합 관리 요구 사항, 로그 수집 요구 사항, 리소스 풀)을 기반으로 합니다. 요구 사항, 데이터 지속성 요구 사항 등)을 하나씩 논의하고 해결하면서 현재의 문제를 해결하는 동시에 플랫폼의 장기적인 기능 계획도 고려하여 점차적으로 컨테이너 기반 KubeAI 플랫폼 솔루션을 구축했습니다. 플랫폼을 지향하며 AI 사업을 지향합니다.
AI 비즈니스 시나리오와 이를 둘러싼 비즈니스 요구에 초점을 맞춰 업계 AI 플랫폼의 기본 아키텍처와 제품 형태에 대한 철저한 조사와 연구를 바탕으로 컨테이너 기술 팀이 진행 중입니다. 컨테이너화 클라우드 네이티브 AI 플랫폼-KubeAI 플랫폼을 설계하고 점진적으로 구현합니다. KubeAI 플랫폼은 알고리즘 학생들의 문제점을 해결하는 데 중점을 두고 모델 개발, 출시, 운영 및 유지 관리 프로세스 전반에 걸쳐 필요한 기능 모듈을 제공하며, 알고리즘 개발자가 AI 인프라 리소스를 빠르고 비용 효율적으로 확보 및 사용하고 알고리즘을 신속하고 효율적으로 수행할 수 있도록 지원합니다. 효율적으로 모델 설계, 개발 및 실험을 수행합니다.
KubeAI 플랫폼은 모델의 전체 수명 주기에 걸쳐 다음과 같은 기능 모듈을 제공합니다.
데이터 세트 관리: 주로 다양한 데이터 소스와의 호환성을 위해 제공되며 데이터 캐싱 가속화 기능도 제공합니다.
모델 학습: 모델 개발 및 학습을 위한 노트북을 제공할 뿐만 아니라, 일회성/주기적 작업 관리도 지원하며, 이 과정에서 이기종 리소스(CPU/GPU/스토리지)가 탄력적으로 적용 및 해제됩니다.
모델 관리: 모델 메타데이터(기본 모델 정보, 버전 목록 등)를 통합 관리하며, 모델 서비스 출시 및 운영 및 유지 관리 프로세스와 원활하게 연결됩니다.
추론 서비스 관리: 모델을 추론 코드에서 분리하여 모델을 이미지에 패키징할 필요가 없으므로 추론 서비스 업데이트의 효율성이 향상되어 온라인 서비스에 대한 모델 업그레이드를 지원합니다.
AI-파이프라인 엔진: 데이터 분석, 주기적인 일상 교육 작업 모델, 모델 반복 및 기타 시나리오의 요구 사항을 충족하기 위해 파이프라인 방식으로 작업 정렬을 지원합니다.
KubeAI 플랫폼은 개인 사용자뿐만 아니라 플랫폼 사용자도 지원합니다. 개별 개발자는 KubeAI의 노트북을 사용하여 모델 스크립트를 개발할 수 있습니다. 작은 모델은 노트북에서 직접 학습할 수 있고, 복잡한 모델은 작업을 통해 학습할 수 있습니다. 모델이 제작된 후에는 추론 서비스로 게시하고 새 버전을 반복하는 등 KubeAI에서 균일하게 관리됩니다. 타사 비즈니스 플랫폼은 상위 계층 비즈니스 혁신을 위해 OpenAPI를 통해 KubeAI의 기능을 확보합니다.
아래에서는 데이터 세트 관리, 모델 교육, 모델 서비스 관리 및 AI 파이프라인 엔진이라는 네 가지 모듈의 기능에 중점을 둡니다.
정리 후 알고리즘 학생들이 사용하는 데이터는 NAS에 저장되거나 ODPS에서 읽거나 OSS에서 가져옵니다. 데이터 관리를 통합하기 위해 KubeAI는 Kubernetes PVC(영구 볼륨 청구) 리소스를 기반으로 사용자에게 데이터 세트 개념을 제공하고 다양한 데이터 소스 형식과 호환됩니다. 동시에 컴퓨팅 아키텍처와 스토리지 아키텍처의 분리로 인해 발생하는 높은 데이터 액세스 오버헤드 문제를 해결하기 위해 Fluid를 사용하여 데이터 세트에 대한 캐시 서비스를 구성하고 다음 라운드를 위해 데이터를 로컬로 캐시할 수 있습니다. 반복 계산 또는 작업을 예약할 수 있습니다. 데이터 세트가 컴퓨팅 노드에 캐시되었습니다.
모델 훈련의 경우 주로 세 가지 측면의 작업을 수행합니다.
(1) JupyterLab을 기반으로 노트북 기능을 제공하며 사용자는 로컬 개발 모드와 동등한 쉘 또는 웹 IDE를 사용할 수 있습니다. 알고리즘 모델 개발 작업을 수행합니다.
(2) 모델 훈련은 태스크 형태로 진행되는데, 이는 리소스를 보다 유연하게 신청 및 해제할 수 있고, 리소스 활용도를 향상시키며, 모델 훈련 비용을 대폭 절감할 수 있습니다. 쿠버네티스의 우수한 확장성을 기반으로 업계의 다양한 TrainingJob CRD를 쉽게 연결할 수 있으며, Tensorflow, PyTorch, xgboost 등의 트레이닝 프레임워크를 모두 지원할 수 있습니다. 작업은 일괄 예약 및 작업 우선순위 대기열을 지원합니다.
(3) 알고리즘 팀과 협력하여 Tensorflow 교육 프레임워크를 부분적으로 최적화하고 PS 부하 불균형 및 느린 작업자 등과 같은 문제에서 배치 데이터 읽기 효율성 및 PS/작업자 간의 통신 속도를 일부 개선했습니다. 솔루션.
일반 서비스에 비해 모델 서비스의 가장 큰 특징은 서비스가 하나 이상의 모델 파일을 로드해야 한다는 것입니다. 컨테이너화 초기에는 역사적 이유로 인해 대부분의 CV 모델 서비스가 모델 파일과 추론 스크립트를 컨테이너 이미지로 직접 패키징했기 때문에 상대적으로 큰 컨테이너 이미지와 번거로운 모델 버전 업데이트가 발생했습니다.
KubeAI는 표준화된 모델 관리를 기반으로 모델 서비스를 구성을 통해 모델과 연결합니다. 플랫폼은 추론 스크립트를 통해 로드하기 위해 모델 구성에 따라 해당 모델 파일을 가져옵니다. 이 방법은 알고리즘 모델 개발자가 추론 서비스 이미지/버전을 관리해야 하는 부담을 줄이고, 스토리지 중복성을 줄이고, 모델 업데이트/롤백의 효율성을 높이고, 모델 재사용률을 향상시키며, 알고리즘 팀이 모델 및 관련 온라인을 보다 편리하고 빠르게 관리하는 데 도움이 됩니다. 추론 서비스.
실제 비즈니스 시나리오는 단일 작업 노드가 아닙니다. 예를 들어 전체 모델 반복 프로세스에는 대략 데이터 처리 링크, 모델 교육 링크, 새 모델을 사용하여 온라인 추론 서비스 업데이트 및 소규모가 포함됩니다. 트래픽 확인 링크 및 공식 출시 링크입니다. KubeAI 플랫폼은 Argo Workflow 기반의 워크플로 조정 엔진을 제공합니다. 워크플로 노드는 사용자 정의 작업, 플랫폼 사전 설정 템플릿 작업 및 다양한 딥 러닝 AI 훈련 작업(TFJob, PyTorchJob 등)을 지원합니다.
CV 알고리즘 모델의 개발 모드는 일반적으로 엔지니어링 실습 알고리즘 모델을 개발하면서 이론적 알고리즘을 연구하는 것입니다. 언제든지. 모델은 일반적으로 크기가 작기 때문에 학습 비용이 검색 및 푸시 모델보다 낮기 때문에 CV 학생들은 노트북에서 학습 스크립트를 개발한 후 노트북에서 직접 학습하는 데 더 익숙합니다. 사용자는 노트북용 CPU, GPU 카드, 네트워크 스토리지 디스크 등의 리소스를 독립적으로 선택하고 구성할 수 있습니다.
훈련 스크립트가 개발 및 디버깅을 통해 요구 사항을 충족한 후 사용자는 KubeAI에서 제공하는 작업 관리 기능을 사용하여 훈련 스크립트를 독립형 훈련 작업 또는 분산 훈련 작업으로 구성하고 KubeAI 플랫폼에 제출하여 실행. 플랫폼은 충분한 리소스가 있는 리소스 풀에서 실행되도록 작업을 예약합니다. 성공적인 작업 후 모델은 모델 창고로 푸시되고 KubeAI의 모델 목록에 등록되거나 사용자가 만들 수 있도록 지정된 위치에 모델이 저장됩니다. 선택 및 확인.
모델이 생성된 후 사용자는 KubeAI의 모델 서비스 관리에서 모델을 추론 서비스로 직접 배포할 수 있습니다. 나중에 새 버전의 모델이 생성되면 사용자는 추론 서비스에 대한 새 모델 버전을 구성할 수 있습니다. 그런 다음 추론 엔진이 모델 핫 업데이트를 지원하는지 여부에 따라 서비스를 재배포하거나 모델 업그레이드 작업을 생성하여 추론 서비스에서 모델 업그레이드를 완료할 수 있습니다.
머신 식별 비즈니스 시나리오에서 위 프로세스는 AI-Pipeline 워크플로를 통해 조정되고 모델 반복이 주기적으로 수행되어 모델 반복 효율성이 약 65% 향상됩니다. CV 장면이 KubeAI 플랫폼에 연결된 후에는 이전 로컬 훈련 방법이 폐기되고 플랫폼의 유연한 주문형 리소스 획득 방법이 모델 관리, 추론 서비스 관리 및 모델 반복 측면에서 리소스 활용도를 크게 향상시킵니다. R&D 효율이 약 50% 향상됩니다.
CV 모델에 비해 검색 및 푸시 모델 훈련 비용이 더 높으며 이는 주로 대규모 데이터 샘플, 긴 훈련 시간, 단일 작업에 필요한 많은 양의 리소스. KubeAI가 출시되기 전에는 우리의 데이터가 ODPS(Alibaba General Computing Platform에서 제공하는 데이터 웨어하우스 솔루션, 현재 MaxCompute로 이름 변경)에 저장되었기 때문에 검색 및 푸시 알고리즘 수강생의 대부분이 Dataworks(ODPS 기반 빅데이터)에 있었습니다. 개발 관리 플랫폼 콘솔에서 작업을 처리하고 모델 교육 작업을 PAI 플랫폼에 제출합니다. 그러나 PAI는 퍼블릭 클라우드 제품이기 때문에 제출된 단일 작업의 비용은 해당 작업 자체에 필요한 리소스 비용보다 높습니다. 또한 이러한 종류의 퍼블릭 비용도 실제로는 기술 서비스 비용으로 이해될 수 있습니다. 클라우드 제품은 회사 내부 비용 통제 요구도 충족되지 않습니다.
KubeAI의 점진적인 구현 이후, 우리는 PAI의 검색 및 푸시 시나리오의 모델 훈련 작업을 두 가지 방법으로 점진적으로 우리 플랫폼으로 마이그레이션할 것입니다. 방법 1은 사용자가 Dataworks에서 작업하는 습관을 유지하면서 Dataworks에서 일부 SQL 작업을 완료한 다음 셸 명령을 통해 KubeAI 플랫폼에 작업을 제출하는 것이고, 방법 2는 사용자가 KubeAI 플랫폼에 직접 작업을 제출하는 것입니다. 데이터 웨어하우스 인프라가 개선됨에 따라 점차적으로 두 번째 방법으로 전환할 예정입니다.
Soutui의 모델 훈련 작업 개발 프로세스는 KubeAI에서 제공하는 개발 환경과 도구를 최대한 활용합니다. 자체 개발한 훈련 프로젝트인 Framwork를 통해 CPU만 사용할 경우 훈련 시간은 PAI에서 GPU 훈련을 사용하는 것과 동일할 수 있습니다. 훈련 엔진 측에서도 대규모 모델 훈련과 실시간 훈련 시나리오를 지원하고 다양한 유형과 협력합니다. 대규모 모델 학습 작업의 성공률을 보장하고 온라인 서비스에 대한 모델 업데이트를 효율적으로 완료하기 위한 스토리지(OSS/파일 스토리지) 솔루션 및 모델 배포 솔루션을 제공합니다.
리소스 예약 및 관리 측면에서 KubeAI는 클러스터 연합, 과매도 메커니즘, 작업 번들링 및 기타 기술적 수단을 최대한 활용하여 교육 작업을 위한 전용 리소스 풀의 사용을 작업 Pod에 탄력적인 리소스를 할당하고 일정을 예약하는 방식으로 점진적으로 전환합니다. 온라인 자원 풀. 생산업무와 주간 주요 개발업무를 주기적으로 수행하는 특성을 최대한 활용하고, Peak-shifting 및 차별화된 스케줄링을 구현합니다(예: 작은 규모에는 탄력적 자원, 큰 규모에는 정규 자원 사용 등). 최근 몇 달 동안의 데이터를 보면 우리는 계속해서 더 많은 작업을 수행할 수 있었지만 총 리소스 증가는 크게 변하지 않았습니다.
이것은 AI 기능을 사용하는 일반적인 비알고리즘 비즈니스 시나리오입니다. 예를 들어 Facebook의 예언자 알고리즘을 사용하여 특정 비즈니스 지표 기준을 예측할 수 있습니다. KubeAI는 이러한 시나리오의 요구에 맞는 기본 AI 기능을 제공하여 "성숙한 알고리즘을 신속하게 검증하기 어렵다"는 문제를 해결합니다. 사용자는 엔지니어링 방식(기존 모범 사례 또는 보조 개발 사용)으로 알고리즘 모델을 구현한 다음 컨테이너 이미지를 생성하고 KubeAI에 작업을 제출하고 실행을 시작하여 원하는 결과를 얻거나 정기적으로 교육 및 추론을 수행하면 됩니다. 기본 예측 결과를 얻습니다.
사용자는 작업에 필요한 컴퓨팅 리소스나 기타 이기종 리소스를 필요에 따라 구성하여 사용할 수 있습니다. 현재 온라인 비즈니스 시나리오의 12개 지표를 예로 들면, 매일 거의 20,000개의 작업이 실행됩니다. 유사한 요구 사항에 대한 이전 리소스 비용과 비교하여 KubeAI는 거의 90%의 비용을 절감하고 R&D 효율성을 3배 정도 향상시킵니다. .
Dewu는 점점 더 성숙해지는 클라우드 네이티브 기술과 자체 비즈니스 시나리오에 대한 심층적인 이해 덕분에 짧은 시간 내에 비즈니스를 성공적으로 컨테이너화할 수 있었습니다. 타겟 솔루션. KubeAI 플랫폼은 AI 비즈니스 시나리오의 엔지니어링 효율성을 지속적으로 개선하고 리소스 활용도를 향상하며 AI 모델/서비스 개발의 임계값을 줄이는 방법을 기반으로 알고리즘 비즈니스 시나리오의 문제점 요구 사항에 대한 심층 분석을 기반으로 합니다. 그런 다음 점차적으로 반복적으로 구현합니다.
앞으로도 AI 모델 훈련 및 반복 효율성을 더욱 향상하고 리소스 활용도를 향상시키기 위해 훈련 엔진 최적화, 정교한 AI 작업 스케줄링, 탄력적 모델 훈련에 계속해서 노력할 것입니다.
위 내용은 Wuyun 네이티브 AI 플랫폼-KubeAI의 구현 프로세스를 이해하는 기사 1편의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!