목차
데이터세트부터 시작하겠습니다.
Split
데이터의 또 다른 관점
수직 분할
하이브리드 분할
다차원 분할
결론
기술 주변기기 일체 포함 시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

Apr 13, 2023 pm 01:10 PM
기계 학습 데이터 데이터세트

알 수 없는 환경에서 기계 학습 모델이 일반화되도록 하기 위한 한 가지 시도는 데이터를 분할하는 것입니다. 이는 3방향(학습, 테스트, 평가) 분할부터 교차 검증된 k-분할까지 다양한 방법으로 달성할 수 있습니다. 기본 원칙은 데이터 하위 집합에 대해 기계 학습 모델을 훈련하고 이를 알 수 없는 데이터에 대해 평가함으로써 훈련 중에 모델이 과소적합되었는지 과대적합되었는지 더 잘 추론할 수 있다는 것입니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

대부분의 작업에서는 간단한 3방향이면 충분합니다. 실제 생산에서 분할 방법에는 일반화 문제를 보장하기 위해 더 복잡한 방법이 필요한 경우가 많습니다. 이러한 분할은 일반적인 분할 방법의 기반이 되는 데이터 구조가 아닌 실제 데이터에서 파생되기 때문에 더 복잡합니다. 이 기사에서는 기계 학습 개발에서 데이터를 분할하는 몇 가지 색다른 방법과 그 이유를 설명하려고 합니다.

데이터세트부터 시작하겠습니다.

단순화를 위해 표 형식을 사용하여 간단한 다변량 시계열 데이터세트를 표현하겠습니다. 데이터는 숫자 특성 3개, 범주형 특성 1개, 타임스탬프 특성 1개로 구성됩니다. 시각화는 다음과 같습니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

이러한 유형의 데이터 세트는 기계 학습에 대한 많은 사용 사례와 업계에서 일반적입니다. 구체적인 예는 공장 현장의 여러 센서에서 전송되는 시간 스트리밍 데이터입니다. 범주형 변수는 기계의 ID이고, 숫자 특징은 센서가 기록하는 정보(예: 압력, 온도 등)이며, 타임스탬프는 데이터가 전송되어 데이터베이스에 기록된 시간입니다.

Split

당신이 데이터 엔지니어링 부서로부터 csv 파일 형태로 이 데이터 세트를 받았고 분류 또는 회귀 모델을 작성하는 임무를 받았다고 가정해 보겠습니다. 이 경우 레이블은 모든 기능 또는 추가 열이 될 수 있습니다. 가장 먼저 해야 할 일은 데이터를 의미 있는 하위 집합으로 분할하는 것입니다.

편의상 간단히 훈련 세트와 테스트 세트로 나눌 수 있습니다. 즉시 문제가 발생합니다. 여기서는 데이터의 간단한 분할이 작동하지 않습니다. 데이터는 시간별로 인덱싱된 여러 센서 데이터 스트림으로 구성됩니다. 그렇다면 순서가 유지되고 후속 기계 학습 모델이 잘 일반화되도록 데이터를 분할하는 방법은 무엇입니까?

데이터의 또 다른 관점

우리가 할 수 있는 가장 간단한 변환은 범주형 클래스에 대한 각 데이터를 표현하는 것입니다(실행 중). 예를 들어 각 머신의 데이터 시각화). 그러면 다음과 같은 결과가 나옵니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

수평 분할

그룹화를 사용하면 분할 문제가 좀 더 쉬워지며 가정에 따라 많은 것이 달라집니다. 다음과 같이 질문할 수 있습니다. 한 그룹에서 훈련된 기계 학습 모델이 다른 그룹에 어떻게 일반화됩니까? 즉, class_1, class_2 및 class_3 시간 흐름에서 훈련된 경우 모델은 class_4 및 class_5 시간 흐름에서 어떻게 수행됩니까? 다음은 이 분할을 시각화한 것입니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

위의 분할 방법은 제가 수평 분할이라고 부르는 것입니다. 대부분의 기계 학습 라이브러리에서 이러한 분할은 단순히 범주형 기능별로 그룹화하고 범주에 따라 분할함으로써 쉽게 달성됩니다. 이 분할을 통해 훈련함으로써 모델은 알려지지 않은 그룹에 걸쳐 일반화되는 정보를 수집했습니다.

분할은 시간을 분할 자체의 기준으로 사용하지 않는다는 점에 주목할 가치가 있습니다. 그러나 데이터에서 이러한 관계를 유지하기 위해 각 시간 스트림을 시간 순서로 분할할 수도 있다고 가정할 수 있습니다. 이는 다음 분할로 이어집니다.

수직 분할

하지만 시간 자체를 확장하려면 어떻게 해야 할까요? 대부분의 시계열 모델링에서 데이터를 분할하는 일반적인 방법은 과거와 미래입니다. 즉, 훈련 세트의 과거 데이터와 평가 세트의 데이터를 비교합니다. 이 경우의 가설은 다음과 같습니다. 과거 데이터의 각 그룹에 대해 훈련된 기계 학습 모델이 미래 데이터의 각 그룹에 어떻게 일반화됩니까? 이 질문은 수직 분할이라는 항목으로 답할 수 있습니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

이 분할은 성공적인 훈련입니다. 모델이 본 시간 흐름에서 패턴을 추출하고 미래 행동에 대해 정확하게 예측할 수 있음을 보여줍니다. 그러나 이것이 그 자체로 모델이 다른 그룹의 다른 시간 흐름에 잘 일반화된다는 것을 나타내지는 않습니다.

물론 이제 여러 시간 스트림을 개별적으로 정렬해야 하므로 여전히 그룹화해야 합니다. 하지만 이번에는 그룹을 교차하는 대신 과거의 각 그룹에서 샘플을 추출하여 훈련에 넣고 그에 따라 미래 그룹을 평가에 넣습니다. 이 이상적인 예에서 모든 시간 스트림은 동일한 길이를 갖습니다. 즉, 각 시간 스트림은 정확히 동일한 수의 데이터 포인트를 갖습니다. 그러나 실제 세계에서는 그렇지 않을 수 있습니다. 따라서 분할을 위해 각 그룹을 색인화하는 시스템이 필요합니다.

하이브리드 분할

수평 분할과 수직 분할의 제약 조건 하에서 일반화할 수 있는 모델을 생성할 수 있는지 궁금할 것입니다. 이 경우 가설은 다음과 같습니다. 일부 과거 데이터 그룹에 대해 훈련된 기계 학습 모델이 이러한 그룹의 미래 데이터와 다른 그룹의 모든 데이터에 어떻게 일반화됩니까? 이 하이브리드 분할의 시각화는 다음과 같습니다.

시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술

물론, 모델 훈련이 성공한다면 이 모델은 확실히 다른 모델보다 현실 세계에서 더 강력할 것입니다. 일부 그룹의 학습 패턴을 확인했음을 보여줄 수 있을 뿐만 아니라 그룹 전체에 일반화되는 정보를 획득했음을 보여줄 수도 있습니다. 이는 향후 공장에 유사한 기계를 더 추가할 경우 유용할 수 있습니다.

다차원 분할

수평 분할과 수직 분할의 개념은 여러 차원으로 일반화될 수 있습니다. 예를 들어, 데이터에서 하위 그룹을 더 분리하고 하위 그룹별로 정렬하기 위해 하나가 아닌 두 개의 범주형 기능을 기반으로 그룹화할 수 있습니다. 중간에 샘플 크기가 작은 그룹을 필터링하는 복잡한 로직과 도메인과 관련된 기타 비즈니스 수준 로직이 있을 수도 있습니다.

결론

이 가상의 예는 생성할 수 있는 다양한 기계 학습 분할의 무한한 가능성을 보여줍니다. 모델을 평가할 때 기계 학습의 공정성을 보장하는 것이 중요한 것처럼 데이터 세트 분할과 다운스트림 모델 편향에 대한 결과를 고려하는 데 충분한 시간을 투자하는 것도 똑같이 중요합니다.

위 내용은 시계열 머신러닝 데이터 세트를 위한 색다른 분할 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

이 기사에서는 SHAP: 기계 학습을 위한 모델 설명을 이해하도록 안내합니다. 이 기사에서는 SHAP: 기계 학습을 위한 모델 설명을 이해하도록 안내합니다. Jun 01, 2024 am 10:58 AM

기계 학습 및 데이터 과학 분야에서 모델 해석 가능성은 항상 연구자와 실무자의 초점이었습니다. 딥러닝, 앙상블 방법 등 복잡한 모델이 널리 적용되면서 모델의 의사결정 과정을 이해하는 것이 특히 중요해졌습니다. explainable AI|XAI는 모델의 투명성을 높여 머신러닝 모델에 대한 신뢰와 확신을 구축하는 데 도움이 됩니다. 모델 투명성을 향상시키는 것은 여러 복잡한 모델의 광범위한 사용은 물론 모델을 설명하는 데 사용되는 의사 결정 프로세스와 같은 방법을 통해 달성할 수 있습니다. 이러한 방법에는 기능 중요도 분석, 모델 예측 간격 추정, 로컬 해석 가능성 알고리즘 등이 포함됩니다. 특성 중요도 분석은 모델이 입력 특성에 미치는 영향 정도를 평가하여 모델의 의사결정 과정을 설명할 수 있습니다. 모델 예측 구간 추정

학습 곡선을 통해 과적합과 과소적합 식별 학습 곡선을 통해 과적합과 과소적합 식별 Apr 29, 2024 pm 06:50 PM

이 글에서는 학습 곡선을 통해 머신러닝 모델에서 과적합과 과소적합을 효과적으로 식별하는 방법을 소개합니다. 과소적합 및 과적합 1. 과적합 모델이 데이터에 대해 과도하게 훈련되어 데이터에서 노이즈를 학습하는 경우 모델이 과적합이라고 합니다. 과적합된 모델은 모든 예를 너무 완벽하게 학습하므로 보이지 않거나 새로운 예를 잘못 분류합니다. 과대적합 모델의 경우 완벽/거의 완벽에 가까운 훈련 세트 점수와 형편없는 검증 세트/테스트 점수를 얻게 됩니다. 약간 수정됨: "과적합의 원인: 복잡한 모델을 사용하여 간단한 문제를 해결하고 데이터에서 노이즈를 추출합니다. 훈련 세트로 사용되는 작은 데이터 세트는 모든 데이터를 올바르게 표현하지 못할 수 있기 때문입니다."

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 Jun 03, 2024 pm 01:25 PM

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! 공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. 미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

당신이 모르는 머신러닝의 5가지 학교 당신이 모르는 머신러닝의 5가지 학교 Jun 05, 2024 pm 08:51 PM

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

See all articles