<: :> 스노우 파크 : 스노우 플레이크를 사용한 다타베이스 머신 러닝
전통적인 기계 학습에는 종종 데이터베이스에서 모델 교육 환경으로 대규모 데이터 세트를 이동하는 것이 포함됩니다. 이것은 오늘날의 대형 데이터 세트에서 점점 비효율적입니다. Snowflake Snowpark는 다이타베이스 처리를 가능하게하여이를 해결합니다. Snowpark는 Snowflake의 클라우드 내에서 직접 코드 (Python, Java, Scala)를 실행하여 데이터 이동을 최소화하고 보안을 향상시키기위한 라이브러리 및 런타임을 제공합니다.
왜 Snowpark를 선택합니까?
Snowpark는 몇 가지 주요 장점을 제공합니다
데이터베이스 처리 :
데이터 전송없이 선호하는 언어를 사용하여 눈송이 데이터를 조작하고 분석하십시오.
성능 개선 : 효율적인 처리를 위해 Snowflake의 확장 가능한 아키텍처를 활용합니다
비용 절감 : 인프라 관리 오버 헤드 최소화
친숙한 도구 : Jupyter 또는 vs Code와 같은 기존 도구와 통합하고 친숙한 라이브러리 (Pandas, Scikit-Learn, XGBoost)를 활용합니다.
시작하기 : 단계별 가이드
이 튜토리얼은 Snowpark를 사용하여 하이퍼 파라미터 튜닝 모델을 구축하는 것을 보여줍니다
가상 환경 설정 : 콘다 환경을 만들고 필요한 라이브러리를 설치하십시오 (, - , , , , ). .
- 데이터 섭취 : 샘플 데이터 (예 : Seaborn Diamonds 데이터 세트)를 눈송이 테이블로 가져옵니다. (참고 : 실제 시나리오에서는 일반적으로 기존의 눈송이 데이터베이스와 함께 작동합니다.)
-
스노우 파크 세션 생성 : 파일에 단단히 저장된 자격 증명 (계정 이름, 사용자 이름, 비밀번호)을 사용하여 스노우 플레이크 연결 (에 추가).
-
데이터 로딩 : Snowpark 세션을 사용하여 데이터에 액세스하고 Snowpark 데이터 프레임에 데이터에 액세스하고로드하십시오.
스노우 파크 데이터 프레임 이해
스노우 파크 데이터 프레임은 게으름하게 작동하여 최적화 된 SQL 쿼리로 변환하기 전에 작업의 논리적 표현을 구축합니다. 이것은 판다의 열렬한 실행과 대조되며, 특히 대규모 데이터 세트에서 상당한 성능 이득을 제공합니다.
스노우 파크 데이터 프레임을 사용하는시기 :
로컬 컴퓨터로 데이터를 전송하는 것이 실용적이지 않은 대형 데이터 세트에 스노우 파크 데이터 프레임을 사용하십시오. 더 작은 데이터 세트의 경우 팬더로 충분할 수 있습니다.
방법을 사용하면 스노우 파크와 팬더 데이터 프레임 사이의 변환이 가능합니다. 메소드는 SQL 쿼리를 직접 실행하기위한 대안을 제공합니다.
스노우 파크 데이터 프레임 변환 기능 : 스노우 파크의 변환 함수 (로 가져 오기)는 데이터 조작을위한 강력한 인터페이스를 제공합니다. 이 함수는 , 및 메소드와 함께 사용됩니다.
탐색 데이터 분석 (EDA) :
EDA는 Snowpark Dataframe의 데이터를 샘플링하고 Pandas 데이터 프레임으로 변환하고 Matplotlib 및 Seaborn과 같은 시각화 라이브러리를 사용하여 수행 할 수 있습니다. 또는 SQL 쿼리는 시각화에 대한 데이터를 생성 할 수 있습니다
머신 러닝 모델 교육 :
F
snowflake.snowpark.functions
.select()
데이터 정리 : .filter()
데이터 유형이 올바른지 확인하고 전처리 요구 사항 (예 : 열 이름 바꾸기, 데이터 유형 캐스팅, 텍스트 기능 정리).
.with_column()
전처리 : 스노우 플레이크 ML의 및 를 전처리 데이터에 사용하십시오. .
를 사용하여 파이프 라인을 저장하십시오
모델 교육 : 전처리 데이터를 사용하여 Xgboost 모델 ()을 훈련시킵니다. 를 사용하여 데이터를 교육 및 테스트 세트로 분할하십시오.
-
모델 평가 : rmse와 같은 메트릭을 사용하여 모델을 평가합니다 ().
하이퍼 파라미터 튜닝 : -
를 사용하여 모델 하이퍼 파라미터를 최적화하십시오
모델 저장 : Pipeline
클래스를 사용하여 훈련 된 모델과 메타 데이터를 Snowflake의 모델 레지스트리에 저장합니다.
OrdinalEncoder
StandardScaler
추론 : joblib
레지스트리에서 저장된 모델을 사용하여 새 데이터에서 추론을 수행하십시오.
결론 : -
Snowpark는 다이타베이스 기계 학습을 수행하는 강력하고 효율적인 방법을 제공합니다. 게으른 평가, 친숙한 라이브러리와의 통합 및 모델 레지스트리는 대형 데이터 세트를 처리하는 데 유용한 도구입니다. 보다 고급 기능과 기능에 대해서는 Snowpark API 및 ML 개발자 가이드에 문의하십시오.
참고 : 이미지 URL은 입력에서 보존됩니다. 형식은 더 나은 가독성과 흐름을 위해 조정됩니다. 기술적 인 세부 사항은 유지되지만 언어는 더 간결하고 광범위한 청중에게 접근 할 수 있습니다.
위 내용은 Snowflake Snowpark : 포괄적 인 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!