머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?

王林
풀어 주다: 2023-05-17 08:16:05
앞으로
630명이 탐색했습니다.

3년 후, 2022년 완공 Judea Pearl, Turing Award 수상자, UCLA 컴퓨터 과학 교수, 미국 국립과학원 원사, '베이지안 네트워크의 아버지'로 알려진 걸작 '인과: 모델' , 추론 및 추론".

이 책의 초판은 2000년에 집필되었습니다. 인과분석과 추론의 새로운 아이디어와 방법을 개척한 책으로 출간되자마자 널리 호평을 받았으며 데이터 과학, 인공지능, 머신러닝, 인과관계를 장려했습니다. 분석과 같은 분야의 새로운 혁명은 학계에 큰 영향을 미쳤습니다.

이후 2009년에 제2판이 개정되었습니다. 당시 인과 연구의 새로운 발전을 바탕으로 내용이 크게 변경되었습니다. 현재 번역 중인 책의 영문 원문은 2009년에 출간됐으니 벌써 10년이 넘은 책이다.

이 책의 중국어판 출판은 다양한 분야의 중국 학자, 학생, 실무자들이 인과 모형, 추론, 추론과 관련된 내용을 이해하고 숙달하는 데 도움이 될 것입니다. 특히 통계와 머신러닝이 대중화되는 현 시대에 '데이터 피팅'에서 '데이터 이해'로의 전환을 어떻게 달성할 수 있을까요? "모든 지식은 데이터 자체에서 나온다"는 현재 지배적인 가정에서 향후 10년 동안 완전히 새로운 기계 학습 패러다임으로 어떻게 전환할 수 있을까요? '제2의 인공지능 혁명'을 촉발할 것인가?

펄이 튜링상을 받은 것과 마찬가지로 그의 업적은 “인공지능 분야에 근본적인 기여를 한 것”이라는 평가를 받았다. 그는 원래 규칙을 기반으로 한 인공지능의 방향을 완전히 바꾼 확률적, 인과적 추론 알고리즘을 제안했다. 그리고 논리." 우리는 이 패러다임이 새로운 기술적 방향을 제시하고 기계 학습에 추진력을 제공하고 궁극적으로 실제 응용 분야에서 역할을 할 것으로 기대합니다.

Pearl이 말했듯이 "데이터 피팅은 현재 통계 및 기계 학습의 현재 분야를 확고히 지배하고 있으며 오늘날 대부분의 기계 학습 연구자, 특히 결합에 종사하는 사람들의 주요 연구 패러다임입니다. "이즘, 딥 러닝 및 '데이터 피팅'을 핵심으로 하는 이 패러다임은 컴퓨터 비전, 음성 인식, 자율주행 등 응용 분야에서 괄목할 만한 성공을 거두었습니다. 그러나 데이터 과학 분야의 많은 연구자들은 현재 실제로 기계 학습이 지능적인 의사 결정에 필요한 종류의 이해를 생성할 수 없다는 사실도 깨달았습니다. 이러한 문제에는 견고성, 전송 가능성, 해석 가능성 등이 포함됩니다. 아래 예를 살펴보겠습니다.

1. 통계는 믿을만한가요?

최근에는 셀프미디어에 종사하는 많은 사람들이 자신을 통계학자라고 생각하고 있습니다. "데이터 피팅"과 "모든 지식은 데이터 자체에서 나옵니다"는 많은 주요 결정에 대한 통계적 기초를 제공하기 때문입니다. 그러나 우리는 이 분석을 할 때 주의할 필요가 있다. 결국, 상황이 항상 언뜻 보기와 같지 않을 수도 있습니다! 우리 삶과 밀접하게 관련된 사건. 10년 전 도심 주택 가격은 8,000위안/제곱미터였으며, 첨단기술지구에서는 총 1,000만㎡가 매매되었고, 총 100만㎡가 매매되었습니다. 전체 미터당 판매된 도시의 평균 주택 가격은 7,636위안/제곱미터입니다. 지금 도심의 가격은 10,000위안/평방미터이지만 도심의 토지 공급이 적기 때문에 첨단기술지구는 200만 위안만 매매되었습니다. 새로 개발된 토지가 더 많고, 2천만 평방미터가 팔렸습니다. 전체적으로 보면, 도시의 평균 주택 가격은 현재 6,363위안/평방미터입니다. 따라서 지역별로 보면 주택가격이 개별적으로 상승했지만, 전체적으로 보면 '왜 지금 집값이 하락했는가?'라는 의문이 들 수 있다.

머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?

그림 1 주택 가격 추세는 지역별로 나누어져 전체적인 결론과 반대됩니다

이 현상을 심슨의 역설이라고 합니다. 이러한 사례는 관찰된 변수가 충분하지 않을 때 통계 데이터에서 어떻게 완전히 잘못된 모델과 결론을 얻을 수 있는지를 명확하게 보여줍니다. 이 전염병의 경우 일반적으로 전국적인 통계를 얻습니다. 지역이나 도시, 카운티별로 그룹화하면 매우 다른 결론에 도달할 수 있습니다. 전국적으로 COVID-19 사례 수가 감소하는 것을 볼 수 있지만 일부 지역에서는 사례가 증가하고 있습니다(이는 다음 물결의 시작을 알릴 수 있음). 이는 인구가 크게 다른 지역과 같이 매우 다른 그룹이 있는 경우에도 발생할 수 있습니다. 국가 데이터에서는 인구 밀도가 낮은 지역의 사례 급증이 인구 밀도가 높은 지역의 감소보다 작아질 수 있습니다.

"데이터 피팅"을 기반으로 한 유사한 통계 문제가 많이 있습니다. 다음 두 가지 흥미로운 예를 들어보세요.

니콜라스 케이지가 상영한 영화 편수와 미국 내 익사 건수에 대한 데이터를 매년 수집하면 이 두 변수는 높은 상관관계가 있고 데이터 적합도가 매우 높다는 것을 알 수 있습니다.

머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?

그림 2 니콜라스 케이지가 매년 주연을 맡은 영화의 수와 미국에서 익사한 사람의 수

인당 우유 판매량과 익사자 수를 수집하면 각 나라의 노벨상 수상자를 분석해 보면 이 두 변수는 높은 상관관계가 있음을 알 수 있습니다.

머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?

그림 3 1인당 우유 소비량과 노벨상 수상 횟수

인간으로서 상식적으로 볼 때 이는 허위 상관관계이거나 심지어 역설이기도 합니다. 그러나 수학과 확률 이론의 관점에서 볼 때 허위 상관 관계나 역설을 나타내는 사례는 통계적 관점과 계산적 관점 모두에서 문제가 되지 않습니다. 인과적 근거가 있는 사람이라면 데이터에 소위 숨어 있는 변수, 관찰되지 않은 혼란 요인이 숨겨져 있기 때문에 이런 일이 발생한다는 것을 알고 있습니다.

머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?


그림 4 두 변수 사이의 유사 상관 관계로 이어지는 독립 변수

Perl은 "원인과 결과 이론"에서 솔루션 패러다임을 제시하고 위의 문제를 자세히 분석하고 도출했습니다. 인과관계 분석과 추론은 여전히 ​​통계의 맥락에 기초하고 있지만, 인과성과 통계 사이에는 본질적인 차이가 있다는 점을 강조합니다. Pearl은 백도어 원리와 특정 계산 공식을 포함하여 개입 작업(연산자)의 기본 계산 모델을 제안했습니다. 이는 현재 인과 관계에 대한 가장 수학적 설명입니다. "인과관계 및 관련 개념(예: 무작위화, 교란, 개입 등)은 통계적 개념이 아닙니다." 이는 Pearl이 첫 번째 원칙이라고 부르는 Pearl의 인과 분석 사고를 관통하는 기본 원칙입니다[2].

따라서 현재의 데이터 기반 기계 학습 방법, 특히 통계적 방법에 크게 의존하는 알고리즘을 사용하면 학습된 모델이 절반만 사실이거나 오해의 소지가 있거나 반전된 결과를 얻을 가능성이 매우 높습니다. 이는 이러한 모델이 데이터가 생성되는 메커니즘보다는 관찰된 데이터의 분포를 기반으로 학습하는 경향이 있기 때문입니다.

2. 머신러닝이 시급히 해결해야 할 세 가지 문제

강건성:딥러닝 방법의 인기로 인해 컴퓨터 비전, 자연어 처리 및 음성 인식에 대한 연구는 가장 발전된 기술을 광범위하게 사용했습니다. 심층 신경망 구조. 그러나 현실 세계에서 우리가 수집하는 데이터의 분포는 대개 완전하지 않고 현실 세계의 분포와 일치하지 않을 수 있다는 장기적인 문제가 여전히 남아 있습니다. 컴퓨터 비전 애플리케이션에서 훈련 세트와 테스트 세트 데이터의 분포는 픽셀 차이, 압축 품질, 카메라 변위, 회전 또는 각도와 같은 요인의 영향을 받을 수 있습니다. 이러한 변수는 실제로 원인과 결과의 개념에 있어서 "개입" 문제입니다. 이를 통해 공간 오프셋, 흐림, 밝기 또는 대비 변경, 배경 제어 및 회전, 여러 환경 이미지 획득 등과 같은 분류 및 인식 모델의 일반화 기능을 구체적으로 테스트하기 위해 개입을 시뮬레이션하는 간단한 알고리즘이 제안되었습니다. 지금까지 데이터 증강, 사전 훈련, 자기 지도 학습과 같은 방법을 사용하여 견고성에 약간의 진전을 이루었지만 이러한 문제를 해결하는 방법에 대한 명확한 합의는 없습니다. 이러한 수정만으로는 충분하지 않을 수 있으며 독립적이고 동일하게 분포된 가정을 넘어서 일반화하려면 변수 간의 통계적 연관성뿐만 아니라 데이터가 생성된 메커니즘을 명확히 하고 개입을 통해 시뮬레이션을 허용하는 기본 인과 모델도 학습해야 한다고 주장되어 왔습니다. 개념 배포 변경.

전이성: 유아의 사물에 대한 이해는 시간이 지남에 따라 일관되게 행동하는 사물을 추적하는 것을 기반으로 합니다. 이러한 접근 방식을 사용하면 사물에 대한 지식과 직관적인 이해를 재사용할 수 있기 때문에 유아가 새로운 작업을 빠르게 배울 수 있습니다. 마찬가지로, 실제 작업을 효율적으로 해결하려면 학습된 지식과 기술을 새로운 시나리오에서 재사용해야 합니다. 연구에 따르면 환경 지식을 학습하는 기계 학습 시스템이 더 효율적이고 다재다능하다는 것이 입증되었습니다. 실제 세계를 모델링하면 많은 모듈이 다양한 작업과 환경에서 유사한 동작을 나타냅니다. 따라서 새로운 환경이나 작업에 직면했을 때 인간이나 기계는 내부 표현에서 몇 가지 모듈만 조정하면 됩니다. 인과 모델을 학습할 때 대부분의 지식(예: 모듈)을 추가 교육 없이 재사용할 수 있으므로 새로운 환경이나 작업에 적응하는 데 필요한 샘플 수가 더 적습니다.

Interpretability: 해석성은 부울 논리 또는 통계적 확률의 언어만으로는 완전히 설명할 수 없는 미묘한 개념이며, 추가적인 개입 개념, 심지어 반사실적 개념도 필요합니다. 인과관계에서 조작 가능성의 정의는 조건부 확률("사람들이 우산을 펼치는 것을 보면 비가 온다는 것을 의미합니다")이 적극적 개입의 결과를 확실하게 예측할 수 없다는 사실에 초점을 맞춥니다("우산을 치워도 비가 내리는 것을 막지는 못합니다"). 인과성은 관찰된 분포에서 멀리 떨어진 상황에 대한 예측을 제공할 수 있고 순전히 가설적인 시나리오에 대한 결론을 제공할 수도 있는 추론 체인의 필수적인 부분으로 간주됩니다. 이러한 의미에서 인과 관계를 발견한다는 것은 관찰된 데이터 분포 및 훈련 작업에 의해 제한되지 않는 신뢰할 수 있는 지식을 획득하여 해석 가능한 학습에 대한 명확한 사양을 제공하는 것을 의미합니다.

3. 세 가지 수준의 인과 학습 모델링

구체적으로, 통계 모델 기반의 머신러닝 모델은 상관 관계만 모델링할 수 있으며, 상관 관계는 데이터 분포의 변화에 ​​따라 변화하는 경향이 있습니다. , 데이터 생성의 본질을 포착하고 데이터 생성 메커니즘 간의 관계를 반영합니다. 이러한 관계는 더욱 강력하며 배포 외부에서 일반화할 수 있는 능력을 가지고 있습니다. 예를 들어, 의사결정 이론에서는 인과관계와 통계 간의 구분이 더 명확합니다. 의사결정 이론에는 두 가지 유형의 문제가 있습니다. 하나는 현재 환경을 아는 것, 개입을 계획하는 것, 그리고 결과를 예측하는 것입니다. 또 다른 유형은 현재의 환경과 결과를 알고 원인을 추론하는 것이다. 전자를 결과적 문제라 하고, 후자를 납치 문제라 부른다[3].

독립적이고 동일하게 분포된 조건에서의 예측력

통계 모델은 상관관계에만 초점을 맞추기 때문에 관찰된 실제 세계에 대한 피상적인 설명일 뿐입니다. 샘플과 라벨의 경우 추정치를 사용하여 "이 특정 사진에 개가 있을 확률은 얼마입니까?", "일부 증상을 고려할 때 심부전 확률은 얼마입니까?"입니다. 이러한 질문은 생성된 i.i.d. 데이터를 충분히 관찰하여 답할 수 있습니다. 기계 학습 알고리즘은 이러한 작업을 잘 수행할 수 있지만 정확한 예측만으로는 의사 결정에 충분하지 않으며 인과 학습은 유용한 보완책을 제공합니다. 이전 예에서와 같이 영화에 출연하는 니콜라스 케이지의 빈도는 미국의 익사 사망률과 양의 상관관계가 있습니다. 우리는 실제로 익사 빈도를 기반으로 미국의 익사 사망률을 예측하는 통계 학습 모델을 훈련할 수 있습니다. 니콜라스 케이지가 영화에 출연하는 것은 당연하지만 둘 사이에는 직접적인 인과관계가 없다. 통계 모델은 독립적이고 동일하게 분포된 경우에만 정확합니다. 데이터 분포를 변경하기 위해 개입하면 통계 학습 모델에 오류가 발생합니다.

분포 이동/개입 시 예측력

개입(연산)이 통계 학습에서 독립적이고 동일한 분포라는 가정에서 벗어나게 하기 때문에 더 어려운 개입 문제에 대해 더 논의합니다. 계속해서 Nicolas Cage의 사례를 살펴보겠습니다. "올해 Nicolas Cage 영화의 수를 늘리면 미국에서 익사율이 높아질까요?" 분명히 인간의 개입으로 인해 데이터 분포가 바뀌게 되고, 통계적 학습이 생존할 수 있는 조건이 깨져서 실패하게 됩니다. 반면에 개입이 있을 때 예측 모델을 학습할 수 있다면 잠재적으로 실제 환경의 분포 변화에 더 강력한 모델을 얻을 수 있습니다. 사실 여기서 소위 개입이라는 것은 새로운 것이 아닙니다. 사람들의 관심 선호도 등 시간이 지남에 따라 많은 것 자체가 바뀌거나 모델의 훈련 세트와 테스트 세트 자체의 분포에 불일치가 있습니다. 앞서 언급했듯이 신경망의 견고성은 점점 더 많은 관심을 받고 있으며, 인과 추론과 밀접하게 연결된 연구 주제가 되었습니다. 분포 이동의 경우 예측은 테스트 세트에서 높은 정확도를 달성하는 것으로 제한될 수 없습니다. 실제 응용에서 기계 학습 알고리즘을 사용하려면 환경 조건이 변할 때 모델의 예측 결과도 바뀔 것이라고 믿어야 합니다. 정밀한. 실제 애플리케이션에서 분포 이동의 범주는 다양할 수 있습니다. 모델이 일부 테스트 세트에서만 좋은 결과를 얻는다고 해서 이러한 테스트 세트가 이러한 테스트 세트에 딱 들어맞을 수 있다는 의미는 아닙니다. . 가능한 한 많은 상황에서 예측 모델을 신뢰할 수 있으려면 적어도 통계적 학습 모델을 사용하는 것이 아니라 개입 질문에 답할 수 있는 능력이 있는 모델을 사용해야 합니다.

반사실적 질문에 답하는 능력

반사실적 질문에는 일이 발생한 이유에 대한 추론, 다양한 행동 수행의 결과를 상상하는 것이 포함되며, 이를 통해 원하는 결과를 얻기 위해 어떤 조치를 취해야 할지 결정할 수 있습니다. 반사실적 질문에 답하는 것은 개입보다 어렵지만 AI에게는 중요한 과제이기도 합니다. 중재 질문이 "지금 규칙적으로 운동을 시작하면 환자의 심부전 위험은 어떻게 될까요?"라면 해당 반대실적 질문은 "이미 심부전을 앓고 있는 환자가 운동을 시작했다면 어떻게 될까요?"입니다. , 그래도 심부전에 걸릴까요?" 이러한 반사실적 질문에 대답하는 것은 분명히 강화 학습에 매우 중요합니다. 그들은 자신의 결정을 반성하고, 반사실적 가설을 세운 다음, 우리 과학과 마찬가지로 실습을 통해 이를 확인할 수 있습니다. 연구도 동일합니다.

4. 인과학습 응용

마지막으로 인과학습을 다양한 분야에 적용하는 방법을 살펴보겠습니다. 2021년 노벨 경제과학상은 '인과관계 분석에 대한 방법론적 기여'로 조슈아 D. 앙그리스트(Joshua D. Angrist)와 귀도 W. 임벤스(Guido W. Imbens)에게 수여되었습니다. 그들은 경험적 노동 경제학에서 인과 추론의 적용을 연구합니다. 노벨 경제학상 선정위원회는 “자연 실험(무작위 또는 통제된 실험)이 중요한 질문에 답하는 데 도움이 될 수 있다”고 믿지만, “인과관계에 답하기 위해 관찰 데이터를 사용”하는 방법은 더 어렵습니다. 경제학에서 중요한 질문은 인과관계의 문제이다. 예를 들어, 이민자는 현지인의 노동 시장 전망에 어떤 영향을 미칩니까? 대학원 공부하면 소득이 늘어날까? 최저임금은 숙련된 근로자의 고용 전망에 어떤 영향을 미칩니까? 반사실적을 해석하는 올바른 수단이 부족하기 때문에 이러한 질문에 답하기가 어렵습니다.

1970년대부터 통계학자들은 두 변수 사이의 인과 관계 효과를 밝히기 위해 "반사실"을 계산하는 프레임워크를 발명했습니다. 이를 바탕으로 경제학자들은 불연속 회귀분석, 차이 차이, 성향 점수 등의 방법을 더욱 개발하여 다양한 경제 정책 문제에 대한 인과 연구에 광범위하게 적용해 왔습니다. 인과적 자연어 처리를 포함한 6세기의 종교 문헌부터 2021년의 인과적 기계 학습까지, 기계 학습, 통계, 계량 경제학을 활용하여 인과 효과를 모델링할 수 있습니다. 경제학 및 기타 사회과학의 분석은 주로 인과관계 추정, 즉 특성변수가 결과변수에 미치는 개입효과를 중심으로 이루어집니다. 실제로 대부분의 경우 우리가 관심을 갖는 것은 소위 개입효과이다. 개입 효과는 개입이나 치료가 결과 변수에 미치는 인과적 영향을 의미합니다. 예를 들어, 경제학에서 가장 많이 분석되는 개입 효과 중 하나는 기업에 대한 보조금이 기업 소득에 미치는 인과적 영향입니다. 이를 위해 Rubin은 잠재적인 결과 프레임워크를 제안했습니다.

경제학자와 기타 사회과학자들은 예측보다 인과 효과를 더 정확하게 추정할 수 있지만, 기계 학습 방법의 예측 이점에도 관심이 있습니다. 예를 들어 정확한 샘플 예측 기능이나 많은 수의 기능을 처리하는 기능이 있습니다. 그러나 앞서 살펴보았듯이 기존 기계 학습 모델은 인과 관계 효과를 추정하도록 설계되지 않았으며 기계 학습의 기성 예측 방법을 사용하면 인과 효과에 대한 편향된 추정이 발생할 수 있습니다. 그렇다면 기존의 머신러닝 기술을 개선하여 머신러닝을 활용해 지속적이고 효과적으로 인과효과를 추정해야 하는데, 이것이 인과 머신러닝의 탄생으로 이어졌습니다!

현재 인과 머신러닝은 추정하려는 인과 효과의 종류에 따라 크게 두 가지 연구 방향으로 나눌 수 있습니다. 중요한 방향은 평균 개입 효과에 대한 편견 없고 일관된 추정을 위해 기계 학습 방법을 개선하는 것입니다. 이 연구 영역의 모델은 다음 질문에 답하려고 시도합니다. 마케팅 캠페인에 대한 평균 고객 반응은 무엇입니까? 가격 변화가 매출에 미치는 평균 영향은 얼마나 됩니까? 또한 인과적 기계 학습 연구의 또 다른 개발 라인은 기계 학습 방법을 개선하여 개입 효과의 특이성을 밝히는 데 중점을 두고 있습니다. 즉, 평균 개입 효과보다 크거나 작은 개인의 하위 집단을 식별하는 것입니다. 이 유형의 모델은 다음 질문에 답하는 것을 목표로 합니다. 어떤 고객이 마케팅 캠페인에 가장 많이 반응합니까? 가격 변화가 매출에 미치는 영향은 고객 연령에 따라 어떻게 달라지나요?

이러한 생생한 사례 외에도 인과적 머신러닝이 데이터 과학자들의 관심을 불러일으키는 더 깊은 이유는 모델의 일반화 능력 때문이라는 것도 느낄 수 있습니다. 데이터 간의 인과 관계를 설명하는 기계 학습 모델은 새로운 환경에 일반화될 수 있지만 이는 오늘날 기계 학습의 가장 큰 과제 중 하나로 남아 있습니다.

Perl은 이러한 문제를 더 깊은 수준에서 분석하고 기계가 인과적으로 추론할 수 없다면 진정한 인간 수준의 인공 지능을 결코 달성할 수 없다고 믿습니다. 왜냐하면 인과성은 우리 인간이 우리 주변의 복잡한 세계를 처리하고 이해하는 핵심 메커니즘이기 때문입니다. . Pearl은 "인과관계"의 중국어 버전 서문에서 "향후 10년 동안 이 프레임워크가 기존 기계 학습 시스템과 결합되어 잠재적으로 '제2의 인과 혁명'을 촉발할 수 있을 것"이라고 썼습니다. 독자들이 다가오는 이 혁명에 적극적으로 참여하기를 바랍니다.”

위 내용은 머신러닝이 실제로 지능적인 결정을 내릴 수 있을까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿