목차
1 특징 선택, 데이터 선택, 오버샘플링 또는 과소샘플링을 통한 불균형 클래스 처리부터 시작합니다.
1. 모델 아키텍처 및 유사한 비즈니스 문제에 대한 연구.
모델 배포
모니터링 및 유지 관리
결론
기술 주변기기 일체 포함 CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스

Apr 08, 2023 pm 01:21 PM
액자 기계 학습 데이터

번역가 | Bugatti

리뷰어 | Sun Shujuan

현재 기계 학습(ML) 애플리케이션을 구축하고 관리하기 위한 표준 사례가 없습니다. 머신 러닝 프로젝트는 체계적이지 않고 반복성이 부족하며 장기적으로 완전히 실패하는 경향이 있습니다. 따라서 기계 학습 수명주기 전반에 걸쳐 품질, 지속 가능성, 견고성 및 비용 관리를 유지하는 데 도움이 되는 프로세스가 필요합니다.

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스

그림 1. 기계 학습 개발 라이프사이클 프로세스

품질 보증 방법(CRISP-ML(Q))을 사용하여 기계 학습 애플리케이션을 개발하기 위한 산업 간 표준 프로세스는 CRISP-DM의 업그레이드 버전입니다. 제품의 품질을 학습합니다.

CRISP-ML(Q)은

1. 비즈니스 및 데이터 이해

3. 모델 엔지니어링

4. 모델 배포

6. 모니터링 and Maintenance

이 단계에서는 더 나은 솔루션을 구축하기 위해 지속적인 반복과 탐색이 필요합니다. 프레임워크에 순서가 있더라도 이후 단계의 결과에 따라 이전 단계를 재검토해야 하는지 여부가 결정될 수 있습니다.

그림 2. 각 단계의 품질 보증

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스프레임워크의 각 단계에는 품질 보증 방법이 도입됩니다. 이 접근 방식에는 성능 지표, 데이터 품질 요구 사항, 견고성 등의 요구 사항과 제약 조건이 있습니다. 이는 기계 학습 애플리케이션의 성공에 영향을 미치는 위험을 줄이는 데 도움이 됩니다. 이는 전체 시스템을 지속적으로 모니터링하고 유지 관리함으로써 달성할 수 있습니다.

예: 전자 상거래 회사에서는 데이터 및 개념 드리프트로 인해 이러한 변화를 모니터링하는 시스템을 배포하지 않으면 회사는 손실, 즉 고객을 잃게 됩니다.

비즈니스 및 데이터 이해

개발 프로세스 초기에 프로젝트 범위, 성공 기준, ML 적용 가능성을 결정해야 합니다. 그 후 데이터 수집 및 품질 검증 프로세스를 시작했습니다. 그 과정은 길고 까다롭습니다.

범위:

기계 학습 프로세스를 사용하여 달성하고자 하는 것. 자동화를 통해 고객을 유지하는 걸까요, 아니면 운영 비용을 절감하는 걸까요?

성공 기준: 우리는 명확하고 측정 가능한 비즈니스, 기계 학습(통계 지표) 및 경제적(KPI) 성공 지표를 정의해야 합니다.

타당성: 우리는 데이터 가용성, 기계 학습 애플리케이션에 대한 적합성, 법적 제약, 견고성, 확장성, 해석 가능성 및 리소스 요구 사항을 보장해야 합니다.

데이터 수집: 데이터를 수집하고, 버전을 관리하고, 실제 데이터와 생성된 데이터의 지속적인 흐름을 보장하여 재현성을 활성화합니다.

데이터 품질 검증: 데이터 설명, 요구 사항 및 검증을 유지하여 품질을 보장합니다.

품질과 재현성을 보장하려면 데이터의 통계적 속성과 데이터 생성 과정을 기록해야 합니다. 데이터 준비

두 번째 단계는 매우 간단합니다. 모델링 단계를 위한 데이터를 준비하겠습니다. 여기에는 데이터 선택, 데이터 정리, 기능 엔지니어링, 데이터 향상 및 정규화가 포함됩니다.

1 특징 선택, 데이터 선택, 오버샘플링 또는 과소샘플링을 통한 불균형 클래스 처리부터 시작합니다.

2. 그런 다음 노이즈를 줄이고 누락된 값을 처리하는 데 집중하세요. 품질 보증 목적으로 잘못된 값을 줄이기 위해 데이터 단위 테스트를 추가할 예정입니다.

3. 모델에 따라 원-핫 인코딩, 클러스터링 등의 기능 엔지니어링 및 데이터 증대를 수행합니다.

4. 데이터를 정규화하고 확장합니다. 이렇게 하면 편향된 기능의 위험이 줄어듭니다.

재현성을 보장하기 위해 데이터 모델링, 변환 및 기능 엔지니어링 파이프라인을 만들었습니다.

모델 엔지니어링

비즈니스 및 데이터 이해 단계의 제약 조건과 요구 사항에 따라 모델링 단계가 결정됩니다. 우리는 비즈니스 문제를 이해하고 이를 해결하기 위해 머신러닝 모델을 개발하는 방법을 이해해야 합니다. 모델 선택, 최적화 및 교육에 중점을 두고 모델 성능 지표, 견고성, 확장성, 해석 가능성을 보장하고 스토리지 및 컴퓨팅 리소스를 최적화합니다.

1. 모델 아키텍처 및 유사한 비즈니스 문제에 대한 연구.

2. 모델 성능 지표를 정의합니다.

3. 모델 선택.

4. 전문가를 통합하여 도메인 지식을 이해합니다.

5. 모델 훈련.

6. 모델 압축 및 통합.

품질과 재현성을 보장하기 위해 모델 아키텍처, 훈련 및 검증 데이터, 하이퍼파라미터, 환경 설명과 같은 모델 메타데이터를 저장하고 버전 제어합니다.

마지막으로 ML 실험을 추적하고 ML 파이프라인을 생성하여 반복 가능한 학습 프로세스를 만들겠습니다.

모델 평가

모델을 테스트하고 배포할 준비가 되었는지 확인하는 단계입니다.

  • 테스트 데이터 세트로 모델 성능을 테스트하겠습니다.
  • 임의 또는 가짜 데이터를 제공하여 모델의 견고성을 평가합니다.
  • 규제 요구 사항을 충족하도록 모델의 해석 가능성을 향상합니다.
  • 결과를 초기 성공 지표와 자동으로 비교하거나 도메인 전문가와 비교하세요.

품질 보증을 위해 평가 단계의 모든 단계가 기록됩니다.

모델 배포

모델 배포는 기계 학습 모델을 기존 시스템에 통합하는 단계입니다. 이 모델은 서버, 브라우저, 소프트웨어 및 에지 장치에 배포될 수 있습니다. 모델의 예측은 BI 대시보드, API, 웹 애플리케이션 및 플러그인에서 사용할 수 있습니다.

모델 배포 프로세스:

  • 하드웨어 추론을 정의합니다.
  • 제작 환경에서의 모델 평가.
  • 사용자 수용 및 유용성을 보장하세요.
  • 손실을 최소화하기 위한 백업 계획을 제공하세요.
  • 배포 전략.

모니터링 및 유지 관리

생산 환경의 모델에는 지속적인 모니터링과 유지 관리가 필요합니다. 모델 적시성, 하드웨어 성능 및 소프트웨어 성능을 모니터링합니다.

지속적인 모니터링은 프로세스의 첫 번째 부분입니다. 성능이 임계값 아래로 떨어지면 새 데이터에 대해 모델을 재교육하기로 자동으로 결정됩니다. 또한 유지 관리 부분은 모델 재교육에만 국한되지 않습니다. 이를 위해서는 의사 결정 메커니즘, 새로운 데이터 수집, 소프트웨어 및 하드웨어 업데이트, 비즈니스 사용 사례에 따른 ML 프로세스 개선이 필요합니다.

간단히 말하면 ML 모델의 지속적인 통합, 교육 및 배포입니다.

결론

모델 학습 및 검증은 ML 애플리케이션의 작은 부분입니다. 초기 아이디어를 현실로 만들기 위해서는 여러 과정이 필요합니다. 이 기사에서는 CRISP-ML(Q)을 소개하고 위험 평가 및 품질 보증에 중점을 두는 방법을 소개합니다.

먼저 비즈니스 목표를 정의하고, 데이터를 수집 및 정리하고, 모델을 구축하고, 테스트 데이터 세트로 모델을 검증한 후 프로덕션 환경에 배포합니다.

이 프레임워크의 핵심 구성 요소는 지속적인 모니터링과 유지 관리입니다. 데이터와 소프트웨어, 하드웨어 지표를 모니터링하여 모델을 재교육할지 시스템을 업그레이드할지 결정합니다.

기계 학습 작업이 처음이고 자세히 알아보고 싶다면 DataTalks.Club에서 검토한 ​​무료 MLOps 과정​​을 읽어보세요. CRISP-ML의 실제 구현을 이해하면서 6단계 모두에 대한 실무 경험을 쌓게 됩니다.

원제: Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process, 저자: Abid Ali Awan

위 내용은 CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

당신이 모르는 머신러닝의 5가지 학교 당신이 모르는 머신러닝의 5가지 학교 Jun 05, 2024 pm 08:51 PM

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

AI 스타트업들이 집단적으로 OpenAI로 직무를 전환했고, Ilya가 떠난 후 보안팀이 재편성되었습니다! AI 스타트업들이 집단적으로 OpenAI로 직무를 전환했고, Ilya가 떠난 후 보안팀이 재편성되었습니다! Jun 08, 2024 pm 01:00 PM

지난주 내부 사퇴와 외부 비판의 물결 속에서 OpenAI는 대내외적 난관에 봉착했다. - 미망인 여동생의 침해로 글로벌 열띤 논의가 촉발됐다. - '대군주 조항'에 서명한 직원들이 잇달아 폭로됐다. - 네티즌들은 울트라맨의 '' 일곱 가지 대죄" ” 소문 파기: Vox가 입수한 유출된 정보와 문서에 따르면 Altman을 포함한 OpenAI의 고위 경영진은 이러한 지분 회수 조항을 잘 알고 있었고 이에 서명했습니다. 또한 OpenAI가 직면한 심각하고 시급한 문제인 AI 보안이 있습니다. 최근 가장 눈에 띄는 직원 2명을 포함해 보안 관련 직원 5명이 퇴사하고, '슈퍼얼라인먼트' 팀이 해체되면서 OpenAI의 보안 문제가 다시 한 번 주목을 받고 있다. 포춘지는 OpenA가

Java 프레임워크에 대한 상용 지원의 비용 효율성을 평가하는 방법 Java 프레임워크에 대한 상용 지원의 비용 효율성을 평가하는 방법 Jun 05, 2024 pm 05:25 PM

Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

70B 모델은 몇 초 안에 1,000개의 토큰을 생성하고 코드 재작성은 OpenAI가 투자한 코드 아티팩트인 Cursor 팀의 GPT-4o를 능가합니다. 70B 모델은 몇 초 안에 1,000개의 토큰을 생성하고 코드 재작성은 OpenAI가 투자한 코드 아티팩트인 Cursor 팀의 GPT-4o를 능가합니다. Jun 13, 2024 pm 03:47 PM

70B 모델에서는 1000개의 토큰을 몇 초 만에 생성할 수 있으며 이는 거의 4000자로 변환됩니다! 연구진은 Llama3를 미세 조정하고 가속 알고리즘을 도입하여 기본 버전과 비교하여 속도가 13배 빨라졌습니다. 속도가 빠를 뿐만 아니라 코드 재작성 작업 성능도 GPT-4o를 능가합니다. 이 성과는 인기 있는 AI 프로그래밍 아티팩트인 Cursor를 개발한 팀과 OpenAI도 투자에 참여한 anysphere에서 이루어졌습니다. 빠른 추론 가속 프레임워크로 잘 알려진 Groq에서는 70BLlama3의 추론 속도가 초당 300개 토큰이 조금 넘는다는 사실을 아셔야 합니다. Cursor의 속도 덕분에 거의 즉각적인 완전한 코드 파일 편집이 가능하다고 할 수 있습니다. 어떤 사람들은 좋은 사람이라고 커스를 넣으면

PHP 프레임워크의 경량 옵션은 애플리케이션 성능에 어떤 영향을 줍니까? PHP 프레임워크의 경량 옵션은 애플리케이션 성능에 어떤 영향을 줍니까? Jun 06, 2024 am 10:53 AM

경량 PHP 프레임워크는 작은 크기와 낮은 리소스 소비를 통해 애플리케이션 성능을 향상시킵니다. 그 특징은 다음과 같습니다: 작은 크기, 빠른 시작, 낮은 메모리 사용량, 향상된 응답 속도 및 처리량, 리소스 소비 감소 실제 사례: SlimFramework는 500KB에 불과한 REST API를 생성하며 높은 응답성과 높은 처리량을 제공합니다.

PHP 프레임워크의 학습 곡선은 다른 언어 프레임워크와 어떻게 비교됩니까? PHP 프레임워크의 학습 곡선은 다른 언어 프레임워크와 어떻게 비교됩니까? Jun 06, 2024 pm 12:41 PM

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

인공 지능과 기계 학습에서 Go 코루틴을 적용하는 방법은 무엇입니까? 인공 지능과 기계 학습에서 Go 코루틴을 적용하는 방법은 무엇입니까? Jun 05, 2024 pm 03:23 PM

인공 지능 및 기계 학습 분야에서 Go 코루틴을 적용하는 방법에는 실시간 교육 및 예측: 성능 향상을 위한 병렬 처리 작업이 포함됩니다. 병렬 하이퍼파라미터 최적화: 다양한 설정을 동시에 탐색하여 훈련 속도를 높입니다. 분산 컴퓨팅: 작업을 쉽게 분산하고 클라우드 또는 클러스터를 활용합니다.

차이나모바일 : 인류가 4차 산업혁명을 맞이하며 '3대 계획' 공식 발표 차이나모바일 : 인류가 4차 산업혁명을 맞이하며 '3대 계획' 공식 발표 Jun 27, 2024 am 10:29 AM

26일 뉴스에 따르면 2024년 상하이 세계이동통신회의(MWC 상하이) 개막식에서 양지에 차이나모바일 회장이 연설을 했다. 그는 현재 인류사회는 정보가 지배하고 정보와 에너지가 깊이 융합되는 4차 산업혁명, 즉 '디지털·지능 혁명'에 진입하고 있으며, 새로운 생산력의 형성이 가속화되고 있다고 말했다. Yang Jie는 증기기관이 주도하는 '기계화 혁명'부터 전기와 내연기관이 주도하는 '전기화 혁명', 컴퓨터와 인터넷이 주도하는 '정보 혁명'에 이르기까지 모든 산업 혁명이 다음을 기반으로 한다고 믿습니다. "정보"와 "에너지"가 주력으로 생산성 향상을 가져옵니다

See all articles