Hong Kong et al.이 제안한 인과적 표현 학습 방법은 복잡한 철자법 데이터 분포의 외부 일반화 문제를 목표로 합니다.
딥 러닝 모델의 적용과 홍보로 사람들은 모델이 더 높은 훈련 성능을 얻기 위해 데이터에서 허위 상관 관계(Spurious Correlation)를 사용하는 경우가 많다는 사실을 점차 발견했습니다. 그러나 이러한 상관관계는 테스트 데이터에서는 적용되지 않는 경우가 많기 때문에 이러한 모델의 테스트 성능은 만족스럽지 못한 경우가 많습니다[1]. 핵심은 전통적인 머신러닝 목표(ERM)가 훈련 및 테스트 세트의 독립적이고 동일한 분포 특성을 가정하지만 실제로는 독립적이고 동일한 분포 가정이 참인 시나리오가 제한되는 경우가 많다는 것입니다. 많은 실제 시나리오에서 훈련 데이터의 분포와 테스트 데이터의 분포는 일반적으로 불일치, 즉 분포 이동(Distribution Shifts)을 나타냅니다. 이러한 시나리오에서 모델의 성능 향상을 목표로 하는 문제를 일반적으로 아웃-아웃이라고 합니다. 분포 외 일반화(Out-of-Distribution 일반화) 문제. 데이터의 인과관계보다는 상관관계 학습에 초점을 맞춘 ERM과 같은 방법론은 분포 변화로 인해 어려움을 겪는 경우가 많습니다. 최근에는 인과추론의 불변성 원리를 이용하여 Out-of-Distribution 문제에 대한 많은 방법들이 등장하고 어느 정도 진전을 이루었지만, 그래프 데이터에 대한 연구는 여전히 제한적이다. 이는 그래프 데이터의 분포를 벗어난 일반화가 전통적인 유럽 데이터보다 더 어렵기 때문에 그래프 기계 학습에 더 많은 어려움을 초래하기 때문입니다. 본 논문에서는 인과 불변성 원리를 기반으로 그래프 분포의 추가 일반화를 탐색하기 위해 그래프 분류 작업을 예로 들었습니다.
최근 몇 년 동안 사람들은 인과 불변의 원리의 도움으로 유클리드 데이터의 분포 외 일반화 문제에서 확실한 성공을 거두었지만 그래프 데이터에 대한 연구는 여전히 제한적입니다. 유클리드 데이터와 달리 그래프의 복잡성은 인과 불변성 원칙을 사용하고 분포 외 일반화 어려움을 극복하는 데 고유한 과제를 제기합니다.
이 문제를 해결하기 위해 우리는 이 작업에서 인과 불변성을 그래프 기계 학습에 통합하고 그래프 데이터의 분포를 벗어난 일반화 문제를 해결하기 위한 새로운 방법을 제공하는 인과 영감을 받은 불변 그래프 학습 프레임워크를 제안합니다. . 이론과 방법.
이 논문은 NeurIPS 2022에 게재되었습니다. 이 작업은 홍콩 중문 대학교, 홍콩 침례 대학교, Tencent AI Lab 및 시드니 대학교의 협력으로 완료되었습니다.
- 논문 제목: Learning Causally Invariant Representations for Out-of-Distribution Generalization on Graphs
- 논문 링크: https://openreview.net/forum?id=A6AFK_JwrIW
- 프로젝트 코드: https://github.com/LFhase/CIGA
그래프 데이터의 분포 외 일반화
그래프 데이터의 분포 외 일반화에 어려운 점은 무엇인가요?
그래프 신경망은 최근 추천 시스템, AI 지원 의약품 및 기타 분야 등 그래프 구조와 관련된 기계 학습 애플리케이션에서 큰 성공을 거두었습니다. 그러나 대부분의 기존 그래프 기계학습 알고리즘은 데이터의 독립적이고 동일한 분포를 가정하기 때문에 테스트 데이터와 훈련 데이터에 시프트(Distribution Shifts)가 있는 경우 알고리즘의 성능이 크게 저하됩니다. 동시에, 그래프 데이터 구조의 복잡성으로 인해 그래프 데이터의 분포 외 일반화는 유럽 데이터보다 더 일반적이고 더 어렵습니다.
그림 1. 그래프의 분포 이동 예.
첫째, 그래프 데이터의 분포 이동은 그래프의 노드 특성 분포(속성 수준 이동)에 나타날 수 있습니다. 예를 들어, 추천 시스템에서 훈련 데이터에 포함된 제품은 일부 인기 있는 카테고리에 속할 수 있으며, 관련된 사용자는 특정 특정 지역에서 올 수도 있습니다. 그러나 테스트 단계에서 시스템은 모든 사용자를 적절하게 처리해야 합니다. 카테고리 및 지역 및 상품 [2,3,4]. 또한 그래프 데이터의 분포 이동은 그래프의 구조 분포에도 나타날 수 있습니다(구조 수준 이동). 2019년 초에 사람들은 더 작은 그래프에서 훈련된 그래프 신경망이 더 큰 그래프로 일반화하기 위한 효과적인 어텐션(Attention) 가중치를 학습하기 어렵다는 점을 알아차렸고[5], 이는 또한 일련의 관련 연구를 제안했습니다[6,7]. 실제 시나리오에서는 이러한 두 가지 유형의 분포 이동이 동시에 나타날 수 있으며, 서로 다른 수준의 이러한 분포 이동은 예측할 레이블과 서로 다른 잘못된 상관 패턴을 가질 수도 있습니다. 예를 들어 추천 시스템에서는 특정 카테고리의 제품과 특정 지역의 사용자가 제품 사용자 상호 작용 그래프에서 고유한 토폴로지 구조를 나타내는 경우가 많습니다[4]. 약물 분자 속성 예측에서 훈련에 포함된 약물 분자는 너무 작을 수 있으며, 예측 결과는 실험 측정 환경의 영향도 받습니다[8].
또한 유클리드 공간의 분포 외 일반화는 종종 데이터가 여러 환경(Environments) 또는 도메인(Domain)에서 온다고 가정하고, 더 나아가 훈련 중에 모델이 각 샘플이 있는 환경을 얻을 수 있다고 가정합니다. 환경 전반에 걸쳐 불변성을 발견하기 위해 교육 데이터가 속해 있습니다. 그러나 데이터에 대한 환경 라벨을 얻으려면 데이터와 관련된 전문 지식이 필요한 경우가 많으며 그래프 데이터의 추상적인 특성으로 인해 그래프 데이터에 대한 환경 라벨을 얻는 데 더 많은 비용이 듭니다. 따라서 OGB와 같은 대부분의 기존 그래프 데이터세트에는 이러한 환경 라벨 정보가 포함되어 있지 않습니다. DrugOOD와 같은 소수의 기존 그래프 데이터세트에 환경 라벨이 존재하더라도 노이즈의 정도는 다양합니다.
기존 방법으로 그래프의 분포를 벗어난 일반화 문제를 해결할 수 있나요?
그래프 데이터의 분포 외 일반화 문제를 직관적으로 이해하기 위해 Spurious-Motif [9] 데이터 세트를 기반으로 새로운 데이터를 구축하여 위의 문제를 더욱 인스턴스화하고 다음을 시도합니다. 유럽 데이터의 분포 외 일반화를 위한 훈련 목표 IRM [10] 또는 더 강력한 표현 능력을 갖춘 GNN [11]과 같은 기존 방법을 사용하여 기존 방법이 분포 외 일반화 문제를 해결할 수 있는지 분석합니다. 그래프 데이터.
그림 2. 가짜 모티브 데이터 세트 예.
Spurious Motif 작업은 그림 2에 나와 있습니다. 주로 입력 그래프에 특정 구조(예: House 또는 Cycle)의 하위 그래프가 포함되어 있는지 여부에 따라 그래프 레이블을 판단합니다. 여기서 노드 색상은 노드의 속성입니다. 이 데이터 세트를 사용하면 다양한 수준의 분포 변화가 그래프 신경망의 성능에 미치는 영향을 명확하게 테스트할 수 있습니다. ERM을 사용하여 훈련된 일반 GNN 모델의 경우:
- 훈련 단계에서 House 하위 그래프가 있는 샘플의 대부분이 녹색 노드이고 Cycle 노드가 파란색인 경우 테스트 단계에서 모델은 모든 그래프를 예측하는 경향이 있습니다. 녹색 노드가 많은 그래프는 "House"이고, 파란색 노드가 있는 그래프는 "Cycle"입니다.
- 집 하위 그래프가 있는 대부분의 샘플이 훈련 단계에서 육각형 하위 그래프와 함께 발생하는 경우 테스트 단계에서 모델은 육각형 구조를 포함하는 모든 그래프를 "집"으로 결정하는 경향이 있습니다.
또한 모델은 훈련 중에 환경 라벨과 관련된 정보를 얻을 수 없으며 실험 결과는 그림 3에 나와 있습니다(자세한 결과는 논문 부록 D에서 확인할 수 있습니다).
그림 3. 다양한 그래프 분포 변화에 따른 기존 방법의 성능.
그림 3에서 볼 수 있듯이 일반 GCN은 ERM을 사용하여 학습하든 IRM을 사용하든 관계없이 그래프 노드 속성 오프셋(Mixed) 및 그래프를 추가하는 동안 그래프의 구조적 오프셋(Struc)에 대처할 수 없습니다. 또한, 표현력이 더 강한 kGNN을 사용하더라도 심각한 성능 손실(평균 성능 감소 또는 분산 증가)을 피하기가 어렵습니다.
이로부터 우리는 자연스럽게 연구해야 할 질문으로 이어집니다: 다양한 그래프 분포 변화에 대처할 수 있는 GNN 모델을 어떻게 얻을 수 있습니까?
그래프 데이터 분포 외부의 일반화를 위한 인과 모델
위의 문제를 해결하려면 학습 목표, 즉 불변 그래프 신경망(Invariant GNN)을 정의해야 합니다. 최악의 환경에서 좋은 모델(엄격한 정의는 논문 참조):
정의 1(불변 그래프 신경망) 일련의 그래프 분류 데이터 세트가 제공됨 인과적으로 관련된 다양한 환경에서 수집 , 여기서 에는 환경에서 발생한 것으로 간주되는 독립적이고 동일하게 분포된 샘플이 포함됩니다. e. 그래프 신경망 을 고려하세요. 여기서 및 은 각각 그래프 공간과 샘플 공간입니다. 입력, f는 , 즉 모든 환경에서 최악의 경험적 위험을 최소화하는 경우에만 불변 그래프 신경망입니다. 여기서 는 환경에서 모델의 경험적 손실입니다.
모델은 훈련 중에 훈련 환경에서 데이터의 일부만 얻을 수 있습니다 데이터 프로세스에 대해 가정이 이루어지지 않으면 불변 그래프 신경망의 정의에서 요구하는 최소 최대 최적성을 달성하기 어렵습니다. 의. 따라서 우리는 그래프 데이터의 인과 불변성을 정의하기 위해 구조적 인과 모델을 사용하여 인과 추론 관점에서 그래프 생성 과정을 모델링하고 환경 간의 상관 관계를 특성화합니다.
그림 4. 그래프 데이터 생성 프로세스의 인과 모델.
일반성을 잃지 않고 그래프 생성에 영향을 미치는 모든 잠재 변수를 잠재 공간에 통합하고 그래프 생성 프로세스를 로 모델링합니다. 또한 잠재변수
에 대해서는 환경 E의 영향을 받는지 여부에 따라 불변 잠재변수(불변 잠재변수)
와 가짜 잠재변수(가짜 잠재변수)
로 구분합니다. . 이에 따라 잠재 변수 C와 S는 각각 그림 4(a)와 같이 불변 하위 그래프
및 거짓 하위 그래프
로 기록되는 G의 특정 하위 그래프 생성에 영향을 미치며, C 주로 그래프의 레이블 Y를 제어합니다. 이는 또한 더 파생될 수도 있습니다(
). 즉, C와 Y는 S보다 더 높은 상호 정보를 가지고 있습니다. 이 생성 과정은 많은 실제 사례에 해당합니다. 예를 들어, 분자의 의학적 특성은 일반적으로 특정 핵심 그룹(분자 하위 그래프)(예: 분자에 대한 하이드록실-H2O의 수용성)에 의해 결정됩니다.
또한 C는 잠재 공간에서 Y, S 및 E와 다양한 유형의 상호 작용을 합니다. 이는 주로 거짓 잠재 변수 S와 레이블 Y가 상수 잠재 변수 C 외에 추가 연관성을 갖는지 여부, 즉 에 따릅니다. , 그림 4(b)에 표시된 FIIF(Fully Informative Invariant Feature)와 그림 4(c)에 표시된 PIIF(Partially Informative Invariant Feature)의 두 가지 유형으로 요약할 수 있습니다. 그 중 FIIF는 불변 정보가 주어지면 레이블이 잘못된 상관량과 무관하다는 것을 의미합니다. PIIF는 그 반대이다. 가능한 많은 그래프 분포 변화를 다루기 위해 우리의 인과 모델은 다양한 그래프 생성 모델을 광범위하게 모델링하려고 노력한다는 점에 유의해야 합니다. 그래프 생성 프로세스에 대한 더 많은 지식이 주어지면 그림 4에 표시된 인과 모델을 보다 구체적인 예로 일반화할 수 있습니다. 부록 C.1에서와 같이, 추가 그래프 한계(graphon)의 가정을 추가하여 그래프 크기 분포 이동을 분석하는 Bevilacqua et al.[7]의 이전 작업에 인과 그래프를 일반화할 수 있는 방법을 보여줍니다.
위의 인과 분석을 바탕으로 모델이 예측에 불변 하위 그래프만 사용하는 경우, 즉 간의 상관 관계만 사용하는 경우 모델의 예측은 변수의 변화에 영향을 받지 않는다는 것을 알 수 있습니다. 반면에 모델의 예측이 S 또는
과 관련된 정보에 의존하는 경우 E의 변경으로 인해 예측 결과가 크게 변경되어 성능 손실이 발생합니다. 따라서 우리의 목표는 불변 그래프 신경망 학습에서 a) 잠재적 불변 하위 그래프 식별 b) 식별된 하위 그래프를 사용하여 Y 예측으로 더욱 구체화될 수 있습니다. 데이터 생성의 알고리즘 프로세스에 추가로 대응하기 위해 그래프 신경망을 하위 그래프 인식 네트워크(Featurizer GNN)
와 분류 네트워크(Classifier GNN)
및
로 더 분할합니다.
은
의 하위 그래프 공간입니다. 그러면 모델의 학습 목표는 공식 (1)과 같이 표현될 수 있습니다.
그 중 은 부분 그래프 인식 네트워크에 의한 불변 부분 그래프 예측이고,
는
과 Y 사이의 상호 정보입니다. 일반적으로
를 최대화하는 것은
를 사용하여 최소화하여 예측할 수 있습니다. Y의 경험상실이 실현됩니다. 그러나 E가 없기 때문에
의 독립성
을 확인하기 위해 E를 직접 사용하기는 어렵습니다. 이를 위해 필요한 불변 부분 그래프를 식별하기 위해 다른 등가 조건을 찾아야 합니다.
Cause-inspired 불변 그래프 학습
누락 시 불변 부분 그래프 식별 문제를 해결하기 위해 식 (1)의 프레임워크를 기반으로 구현하기 쉬운 식의 등가 조건을 찾고자 합니다. 1). 특히, 기본 불변 하위 그래프 크기가 고정되고 알려진 더 간단한 사례인 을 먼저 고려합니다. 이러한 조건에서는
최대화를 고려하십시오.
및
크기는 동일하지만
도 Y와 관련되어 있으므로 다른 제약 조건 없이 최대화하면
추정 불변 하위 그래프가 다음과 같이 발생할 수 있습니다. Y와 상호 정보가 있는 잘못된 하위 그래프가 포함되어 있습니다.
에서 가능한 잘못된 하위 그래프를 "압착"하기 위해 인과 모델에서
에 고유한 속성을 더 많이 찾을 것입니다. PIIF 또는 FIIF의 거짓 상관 유형에 관계없이 레이블 Y와의 상호 정보를 최대화하는 하위 그래프에 대해 다음을 얻습니다.
- 다른 환경 , 에서 동일한 불변 잠재 변수 C를 갖는 불변 하위 그래프는 이 두 환경에서 가장 큰 상호 정보를 가진 두 하위 그래프, 즉 입니다. ;
- 동일 환경 에서 서로 다른 불변 잠재 변수 C에 해당하는 두 개의 불변 하위 그래프는 이 환경에서 가장 작은 상호 정보를 가진 두 개의 하위 그래프입니다. 즉, ;
위의 두 속성을 결합하면
이를 실제로 직접 관찰하기 어렵기 때문에 식 (2)에서 대용으로 사용할 수 있습니다.
동시에 과
이 동시에 최대화되면
이 자동으로 최소화됩니다. 그렇지 않으면 모델의 예측이 사소한 솔루션으로 붕괴됩니다. 이를 통해 간단한 사례에서 불변 하위 그래프 동등 조건을 얻었습니다. 공식 (1)과 결합하여 Causality-inspired Invariant Graph 학습(Causality-inspired Invariant Graph leArning) 프레임워크의 첫 번째 버전인 CIGAv1을 얻었습니다.
그 중 과
, 즉
과 G는 동일한 카테고리 Y에 속합니다. 우리 논문에서는 그래프 크기가 알려진 경우 CIGAv1이 그림 4에 해당하는 인과 모델에서 잠재적인 불변 하위 그래프를 성공적으로 식별할 수 있음을 추가로 입증합니다. 그러나 이전 가정이 너무 이상적이기 때문에 실제로는 불변 하위 그래프의 크기가 변경될 수 있으며 해당 크기를 알 수 없는 경우가 많습니다. 하위 그래프 크기가 없다는 가정하에 CIGAv1 요구 사항은 전체 그래프를 불변 하위 그래프로 식별하기만 하면 충족될 수 있습니다. 따라서 우리는 이 가정을 제거하기 위해 불변 하위 그래프에 대한 속성을 추가로 찾는 것을 고려합니다.
를 최대화하면 이 발생할 수 있습니다. 의 가짜 하위 사진 부분은 제거된 불변 하위 그래프 부분과 동일하고 관련된 상호 정보를 공유합니다. 그렇다면 의 잘못된 하위 그래프 부분을 제거하기 위해 반대 작업을 수행하면서 동시에
를 최대화할 수 있을까요? 대답은 '예'입니다. 추정치와 경쟁하게 만들 수 있습니다. 를 최대화할 때 가 를 초과하지 않도록 해야 합니다. 그렇지 않으면
이 를 예측하여 사소한 해결책에 빠지게 됩니다. 이 추가 조건과 결합하여 공식 (3)에서 불변 하위 그래프 크기에 대한 가정을 제거하고 다음 CIGAv2를 얻을 수 있습니다.
그래프 학습 프레임워크를 변경합니다.
CIGA 구현: 실제로 두 하위 그래프의 상호 정보를 추정하는 것이 어려운 경우가 많으며 지도 대조 학습[11]이 실현 가능한 솔루션을 제공합니다.
여기서 은 식 (4)의 양성 샘플에 해당하고
는
에 해당하는 그래프 표현입니다.
일 때, 식 (5)는
에 대한 von Mises-Fisher 커널 밀도를 기반으로 한 비모수 재치환 엔트로피 추정기(Nonparameteric Resubstitution Entropy Estimator)를 제공합니다[13,14]. CIGA의 핵심 부분의 최종 구현은 그림 5에 나와 있습니다. 즉, 잠재 표현 공간에서 동일한 범주의 불변 하위 그래프의 그래프 표현을 더 가깝게 하고 동시에 다른 범주의 그래프 표현을 최대화하는 것입니다.
최대화하기 위한 불변 하위 그래프. 또한, 식 (4)의 또 다른 제약 조건에 대해 힌지 손실, 즉
아이디어를 통해 구현할 수 있습니다. 이는 예측 중 경험적 손실이 해당 불변 하위 그래프보다 큰 거짓 하위 그래프만 최적화합니다.
실험 및 토론
실험에서 우리는 다양한 그래프 분포 변화에서 CIGA를 완전히 검증하기 위해 16개의 합성 또는 실제 데이터 세트를 사용했습니다. 실험에서 우리는 해석 가능한 GNN 프레임워크[9]를 사용하여 CIGA의 프로토타입을 구현했지만 실제로 CIGA에는 이를 구현하는 더 많은 방법이 있습니다. 특정 데이터 세트 및 실험 세부정보는 기사의 실험 섹션을 참조하세요.
합성 데이터 세트에서 구조 분포 이동 및 혼합 분포 이동의 성능
우리는 먼저 SPMotif 데이터 세트[9]를 기반으로 SPMotif-Struc 및 SPMotif-Mixed 데이터 세트를 구성했습니다. 여기서 SPMotif-Struc SPMotif-Mixed는 SPMotif-Struc를 기반으로 그래프 노드 속성 수준에서 분포 오프셋을 추가하는 반면 그래프의 특정 하위 그래프와 다른 하위 그래프 구조 간의 잘못된 상관 관계를 포함합니다. 표의 첫 번째 열은 ERM 및 해석 가능한 GNN의 기준선이고, 두 번째 열은 유클리드 공간에서 가장 발전된 분산 외 일반화 알고리즘입니다. 더 나은 GNN 프레임워크와 유클리드 공간의 분포 외 일반화 알고리즘 모두 그래프에서 분포 이동에 영향을 받으며, 분포 이동이 더 많이 발생하면 성능 손실(평균 분류 성능이 더 작아짐)을 결과에서 알 수 있습니다. 또는 더 큰 차이)가 더욱 향상됩니다. 대조적으로, CIGA는 다양한 강도의 분포 변화에서도 우수한 성능을 유지하며 최고의 기본 성능을 크게 초과합니다.
실제 데이터 세트에 대한 다양한 그래프 분포 이동의 성능
그런 다음 실제 데이터 세트와 다양한 실제 데이터에 존재하는 그래프 분포 이동에 대한 CIGA의 성능을 추가로 테스트했습니다. 다양한 실제 적용 시나리오에서의 그래프 분포 변화를 포함하여 AI 지원 의약품의 AI 지원 약물 분자 특성 예측을 위한 DrugOOD의 세 가지 다른 환경 부문(실험 환경 분석, 분자 골격 스캐폴드 및 분자 크기 크기) 세트 CMNIST-SP 유클리드 공간의 클래식 이미지 데이터 세트 ColoredMNIST [10]를 기반으로 변환된 것은 주로 그래프 노드 속성의 PIIF 유형 분포 오프셋을 포함하며, 자연어 감정 분류 데이터 세트 SST5 및 Twitter [15]를 기반으로 변환된 Graph-SST5 및 Twitter 그래프 정도의 분포 이동을 추가로 추가했습니다. 또한 이전에 연구된 4개의 분자 그래프 크기 분포 이동 데이터 세트[7]도 사용했습니다.
테스트 결과는 위 표에 나와 있습니다. 실제 데이터에서는 작업 난이도의 증가로 인해 더 나은 아키텍처의 GNN을 사용하거나 더 나은 모델 성능을 얻을 수 있음을 알 수 있습니다. - 유클리드 공간에서의 분포 일반화 최적화 목표 훈련은 ERM을 사용하여 훈련된 일반 GNN 모델보다 훨씬 약합니다. 이러한 현상은 유클리드 공간에서 더 어려운 작업 하의 분포 외 일반화 실험에서 관찰되는 현상과도 유사하며[16], 이는 실제 데이터에 대한 분포 외 일반화의 어려움과 기존 방법의 단점을 반영합니다. 이와 대조적으로 CIGA는 모든 실제 데이터 및 그래프 분포 변화를 개선할 수 있으며 Twitter 및 PROTEINS와 같은 일부 데이터 세트에서는 경험적으로 최적의 Oracle 수준에 도달할 수도 있습니다. 위의 그래프 분류 데이터 세트에 대한 최신 그래프 분포 외 일반화 테스트 벤치마크 GOOD에 대한 예비 테스트에서도 CIGA가 현재 다양한 그래프 분포 변화에 대처할 수 있는 최고의 그래프 외 분포 일반화 알고리즘임을 보여줍니다.
CIGA의 프로토타입 구현 아키텍처로 해석 가능한 GNN을 사용했기 때문에 모델로 식별된 DrugOOD도 시각화했으며 CIGA가 분자 속성 예측을 위해 상대적으로 일관된 분자 그룹을 찾았다는 것을 발견했습니다. 이는 후속 AI 지원 의약품에 대한 더 나은 기반을 제공할 수 있습니다.
그림 6. DrugOOD에서 CIGA에 의해 식별된 부분 불변 하위 그래프.
요약 및 전망
본 논문에서는 인과 추론의 관점을 통해 다양한 그래프 분포 변화에 따른 일반화를 벗어난 그래프 분포 문제에 인과 불변성을 최초로 도입하고, 이론적으로 보장되는 새로운 풀이 방법을 제안합니다. 프레임워크 CIGA. CIGA의 탁월한 분산 외 일반화 성능은 수많은 실험을 통해 완전히 검증되었습니다. 미래를 내다보면 CIGA를 기반으로 더 나은 구현 프레임워크를 추가로 탐색하거나[17] CIGA에 대해 이론적으로 더 나은 보장된 데이터 향상 방법을 도입하고[3,18] 그래프에서 연관성을 이론적으로 모델링할 수 있습니다. ) [19] 불변 하위 그래프를 식별하는 CIGA의 능력을 더욱 강화하고 AI 지원 의약품과 같은 실제 응용 시나리오에서 그래프 신경망의 실제 구현을 촉진합니다.
위 내용은 Hong Kong et al.이 제안한 인과적 표현 학습 방법은 복잡한 철자법 데이터 분포의 외부 일반화 문제를 목표로 합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

표적 탐지 시스템의 벤치마크 YOLO 시리즈가 다시 한 번 대대적인 업그레이드를 받았습니다. 올해 2월 YOLOv9이 출시된 이후 YOLO(YouOnlyLookOnce) 시리즈의 지휘봉은 칭화대학교 연구진의 손에 넘어갔다. 지난 주말 YOLOv10 출시 소식이 AI 커뮤니티의 관심을 끌었다. 컴퓨터 비전 분야의 획기적인 프레임워크로 간주되며 실시간 엔드투엔드 개체 감지 기능으로 유명하며 효율성과 정확성을 결합한 강력한 솔루션을 제공함으로써 YOLO 시리즈의 유산을 이어갑니다. 논문 주소: https://arxiv.org/pdf/2405.14458 프로젝트 주소: https://github.com/THU-MIG/yo

Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

올해 2월 Google은 엔지니어링 및 인프라 최적화, MoE 아키텍처 및 기타 전략을 통해 성능과 속도를 크게 향상시킨 다중 모드 대형 모델 Gemini 1.5를 출시했습니다. 더 긴 컨텍스트, 더 강력한 추론 기능, 교차 모달 콘텐츠 처리 능력이 향상되었습니다. 이번 금요일에 Google DeepMind는 Flash 버전과 기타 최신 업그레이드를 다루는 Gemini 1.5의 기술 보고서를 공식적으로 발표했습니다. 이 문서의 길이는 153페이지입니다. 기술 보고서 링크: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf 이 보고서에서 Google은 Gemini1을 소개합니다.

위 작성 및 저자 개인 이해: 최근 딥러닝 기술의 발전과 획기적인 발전으로 대규모 기반 모델(Foundation Models)이 자연어 처리 및 컴퓨터 비전 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다. 풍부한 언어와 시각적 데이터에 대한 사전 학습을 통해 기본 모델은 자율주행 시나리오의 다양한 요소를 이해하고 해석하고 추론을 수행할 수 있으며, 의사 결정 및 계획을 추진하기 위한 언어 및 동작 명령을 제공합니다. 기본 모델은 일상적인 운전 및 데이터 수집 중에 발생할 가능성이 없는 롱테일 분포에서 드물게 실행 가능한 기능을 제공하기 위해 운전 시나리오에 대한 이해를 통해 데이터를 보강할 수 있습니다.

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

일반적으로 신경망을 훈련하는 데 필요한 계산이 많을수록 성능이 향상됩니다. 계산을 확장할 때는 모델 매개변수 수를 늘리거나 데이터 세트 크기를 늘리는 것 중 하나를 결정해야 합니다. 이 두 가지 요소는 고정된 계산 예산 내에서 평가되어야 합니다. 모델 매개변수 수를 늘리는 것의 장점은 모델의 복잡성과 표현 능력을 향상시켜 훈련 데이터를 더 잘 맞출 수 있다는 것입니다. 그러나 매개변수가 너무 많으면 과적합이 발생하여 보이지 않는 데이터에 대한 모델 성능이 저하될 수 있습니다. 반면에 데이터 세트 크기를 확장하면 모델의 일반화 능력이 향상되고 과적합 문제가 줄어들 수 있습니다. 매개변수와 데이터를 적절하게 할당하는 한 고정된 컴퓨팅 예산 내에서 성능을 극대화할 수 있습니다. 이전의 많은 연구에서는 신경 언어 모델의 확장을 탐구했습니다.
