[논문해석] 그래프 기반 자기지도 학습 공동 임베딩 예측 아키텍처
1. 간략한 소개
이 문서에서는 손으로 만든 데이터 증대에 의존하지 않고 의미론적인 이미지 표현을 학습하는 방법을 보여줍니다. 이 논문에서는 이미지에서 자기 지도 학습을 위한 비생성적 접근 방식인 이미지 기반 공동 임베딩 예측 아키텍처(I-JEPA)를 소개합니다. I-JEPA의 아이디어는 간단합니다. 단일 컨텍스트 패치에서 동일한 이미지의 다양한 대상 패치 표현을 예측하는 것입니다. 의미론적 표현을 생성하기 위해 I-JEPA를 안내하는 핵심 설계 선택은 마스킹 전략입니다. 특히 (a) 이미지의 여러 대상 패치를 예측하고, (b) 충분히 큰 규모(이미지의 15% - 20)에서 샘플 샘플 대상 패치를 예측합니다. %), (c) 충분히 풍부한(공간적으로 분산된) 컨텍스트 블록을 사용하는 것이 중요합니다. 경험적으로, 이 논문은 I-JEPA가 시각적 변환기와 결합될 때 확장성이 높다는 것을 발견했습니다. 예를 들어, 이 논문은 32개의 A100 GPU를 사용하여 ImageNet에서 38시간 만에 ViT-Huge/16을 교육하여 선형 분류에서 객체 계산 및 깊이 예측에 이르기까지 다양한 수준의 추상화가 필요한 광범위한 작업에서 강력한 다운스트림 성능을 달성합니다.
2. 연구 배경
컴퓨터 비전에는 두 가지 일반적인 이미지 자기 지도 학습 방법이 있습니다.
불변 기반 방법 및 생성 방법. 불변 기반 사전 학습 접근 방식을 통해 인코더를 최적화함으로써 동일한 이미지에 대한 두 개 이상의 뷰에 대해 유사한 임베딩을 생성할 수 있습니다. 일반적으로 이미지 뷰는 임의 크기 조정, 자르기, 색상 디더링 등과 같은 일련의 손으로 만든 데이터 증대 방법을 사용하여 구성됩니다. 이러한 사전 훈련 방법은 높은 의미 수준의 표현을 생성할 수 있지만 동시에 일부 다운스트림 작업이나 심지어 데이터 분포가 다른 사전 훈련 작업에 부정적인 영향을 미칠 수 있는 강한 편향을 도입합니다.
인지 학습 이론은 믿습니다. 생물학적 시스템에서의 표현 학습의 이면에 있는 한 가지 추진 메커니즘은 감각 입력에 대한 반응을 예측하기 위한 내부 모델의 적응입니다. 이 아이디어는 입력의 일부를 제거하거나 손상시키고 무엇이 손상되었는지 예측하는 방법을 배우는 자체 감독 생성 방법의 핵심입니다. 특히 마스크 노이즈 제거 방법은 입력의 픽셀 또는 토큰 수준에서 무작위 마스크 패치를 재구성하여 표현을 학습합니다. 뷰 불변 방법과 비교할 때 마스크의 사전 훈련 작업은 사전 지식이 덜 필요하며 이미지 양식을 넘어 쉽게 일반화됩니다. 그러나 결과 표현은 의미 체계 수준이 낮고 의미 체계 분류 작업에 대한 감독이 제한된 선형 프로빙 및 전송 설정과 같은 기성 평가에서 불변 기반 사전 훈련이 부족한 경우가 많습니다. 따라서 이러한 방법의 장점을 최대한 활용하려면 보다 정교한 적응 메커니즘(예: 엔드투엔드 미세 조정)이 필요합니다.
이 연구에서 논문은 인코딩된 이미지 변환에 대한 추가 사전 지식을 사용하지 않고 자기 지도 표현의 의미 수준을 향상시키는 방법을 탐구합니다. 이를 위해 본 논문에서는 이미지 조인트 임베딩 예측 아키텍처(I-JEPA)를 소개합니다. 그림 3은 이 접근 방식을 보여줍니다. I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것입니다. 예를 들어 컨텍스트 패치가 주어지면 동일한 이미지에서 다른 대상 패치의 표현을 예측합니다. 여기서 대상 표현은 학습된 대상 인코더 네트워크에 의해 계산됩니다.
픽셀/마커 공간에서 예측하는 생성 방법과 비교하여 I-JEPA는 불필요한 픽셀 수준 세부 정보를 제거할 수 있는 추상 예측 대상을 활용하여 모델이 더 많은 의미론적 특징을 학습하도록 합니다. I-JEPA가 의미론적 표현을 생성하도록 안내하는 또 다른 핵심 설계 선택은 제안된 다중 블록 마스킹 전략입니다. 특히, 이 논문은 이미지에서 (충분히 큰 규모의) 여러 대상 패치를 예측하기 위해 유익한(공간적으로 분산된) 컨텍스트 패치를 사용하는 것의 중요성을 보여줍니다. 재작성된 콘텐츠: 픽셀/마커 공간에서 예측하는 생성 방법과 비교하여 I-JEPA는 추상적 예측 대상을 활용하여 잠재적으로 불필요한 픽셀 수준 세부 정보를 제거함으로써 모델이 더 많은 의미론적 특징을 학습할 수 있도록 합니다. I-JEPA의 또 다른 핵심 설계 선택은 의미론적 표현을 생성하기 위해 다중 블록 마스킹 전략을 채택하는 것입니다. 특히, 이 논문은 이미지에서 (충분히 큰 규모의) 여러 대상 패치를 예측하기 위해 유익한(공간적으로 분산된) 컨텍스트 패치를 사용하는 것의 중요성을 보여줍니다.
광범위한 실증적 평가를 바탕으로 연구 결과는 다음과 같습니다.
I-JEPA는 강력한 학습을 수행합니다. -수작업으로 만든 뷰 확대를 사용하지 않고 바로 사용할 수 있는 의미 표현(그림 1). I-JEPA는 ImageNet-1K 선형 감지의 MAE, 준지도 1% ImageNet-1K 및 의미론적 전송 작업과 같은 픽셀 재구성 방법보다 성능이 뛰어납니다.
I-JEPA는 의미론적 작업에 대한 뷰 불변 사전 훈련 방법으로 경쟁력이 있으며 객체 계산 및 깊이 예측과 같은 낮은 수준의 비전 작업에서 더 나은 성능을 달성합니다. 더 간단한 모델과 덜 엄격한 유도 바이어스를 사용함으로써 I-JEPA는 더 넓은 작업 세트에 적용 가능합니다.
I-JEPA는 확장성과 효율성도 뛰어납니다. ImageNet에서 ViT-H/14를 사전 훈련하는 데는 약 2400 GPU 시간이 소요됩니다. 이는 iBOT으로 사전 훈련된 ViTB/16보다 50% 빠르고 MAE로 사전 훈련된 ViT-L/16보다 140% 빠릅니다. 표현 공간의 예측은 자기 지도 사전 훈련에 필요한 전체 계산을 크게 줄입니다.
자기 지도 학습은 시스템이 입력 간의 관계를 포착하는 방법을 학습하는 표현 학습 방법입니다. 이 목표는 에너지 기반 모델(EBM)의 프레임워크를 사용하여 쉽게 설명할 수 있습니다. 여기서 자기 감독의 목표는 호환되지 않는 입력에 높은 에너지를 할당하고 호환 가능한 입력에 낮은 에너지를 할당하는 것입니다. 기존의 생성적 및 비생성적 자기 지도 학습 방법은 실제로 이 프레임워크에서 변환될 수 있습니다. 그림 2
다시 작성된 내용을 참조하세요. 강제 변환을 수행하기 위해 EBM 프레임워크에서 사용됩니다(그림 2a 참조). 조인트 임베딩 아키텍처의 학습 목표는 호환 가능한 입력 x와 y가 유사한 임베딩을 출력하도록 하고, 호환되지 않는 입력은 서로 다른 임베딩을 출력하도록 만드는 것입니다. 이미지 기반 사전 훈련에서 호환 가능한 x 및 y 쌍은 일반적으로 동일한 입력 이미지에 손으로 만든 데이터 증대를 무작위로 적용하여 구성됩니다.
JEA의 주요 과제는 에너지 환경이 평평한 표현 붕괴입니다(예: 인코더는 입력에 관계없이 일정한 출력을 생성합니다. 지난 몇 년 동안 음의 예제 임베딩을 명시적으로 푸시하는 대조 손실, 임베딩의 정보 중복을 최소화하는 비대비 손실, 평균 임베디드 엔트로피를 최대화하는 클러스터링 기반 방법과 같은 표현 붕괴를 방지하기 위한 여러 가지 방법이 연구되었습니다. . 붕괴를 피하기 위해 x 인코더와 y 인코더 사이에 비대칭 아키텍처 설계를 사용하는 몇 가지 경험적 방법도 있습니다. 생성 아키텍처. 재구성 기반 자기 지도 학습 방법은 생성 아키텍처를 사용하여 EBM 프레임워크에서 캐스팅될 수도 있습니다. 그림 2b를 참조하세요.
생성 아키텍처는 변수 z에 대한 추가(잠재적) 디코더 네트워크를 사용하여 호환 가능한 신호 x에서 신호 y를 직접 재구성하는 방법을 학습합니다. 재건축을 촉진하기 위해. 이미지 기반 사전 훈련에서 컴퓨터 비전의 일반적인 접근 방식은 마스크를 사용하여 호환 가능한 x,y 쌍을 생성하는 것입니다. 여기서 x는 이미지 y의 복사본이지만 일부 패치는 마스크되어 있습니다. 그러면 조건 변수 z는 재구성될 이미지 패치의 디코더를 지정하는 (학습 가능한) 마스크 및 위치 마커 세트에 해당합니다. z의 정보 용량이 신호 y보다 낮은 한 이러한 아키텍처는 표현 붕괴에 초점을 맞추지 않습니다.
공동 내장 예측 아키텍처. 그림 2c에서 볼 수 있듯이 공동 임베딩 예측 아키텍처는 개념적으로 생성 아키텍처와 유사하지만 주요 차이점은 손실 함수가 입력 공간이 아닌 임베딩 공간에 적용된다는 것입니다. JEPA는 예측을 용이하게 하기 위해 추가(아마도 잠재) 변수 z의 예측 네트워크를 사용하여 호환 가능한 신호 x에서 신호 y의 임베딩을 예측하는 방법을 학습합니다. 제안된 I-JEPA는 마스크를 사용하는 이미지의 맥락에서 이 아키텍처의 인스턴스화를 제공합니다(그림 3 참조). 공동 임베딩 아키텍처와 달리 JEPA는 손으로 만든 데이터 확장 세트에 불변하는 표현을 추구하지 않고 오히려 추가 정보 z 조건이 있을 때 서로를 예측하는 표현을 추구합니다. 그러나 조인트 임베딩 아키텍처와 마찬가지로 표현 붕괴도 JEPA의 관심사입니다. 이 논문은 I-JEPA의 표현 붕괴를 방지하기 위해 x와 y 인코더 사이의 비대칭 아키텍처를 활용합니다.
3. 방법 소개
이제 논문에서는 제안된 이미지 기반 조인트 임베딩 예측 아키텍처(I-JEPA)를 그림 3과 같이 설명합니다. 전반적인 목표는 다음과 같습니다. 컨텍스트 패치가 주어지면 동일한 이미지에서 다양한 대상 패치의 표현을 예측합니다. 이 문서에서는 ViT(Visual Transformer) 아키텍처를 컨텍스트 인코더, 대상 인코더 및 예측자로 사용합니다. ViT는 Transformer 레이어의 스택으로 구성되며 각 레이어는 self-attention 작업과 완전히 연결된 MLP로 구성됩니다. 논문의 인코더/예측기 아키텍처는 생성 마스크 자동 인코더(MAE) 접근 방식을 연상시킵니다. 그러나 주요 차이점은 I-JEPA 방법이 비생성적이며 표현 공간에서 예측이 이루어진다는 것입니다.
이미지 분류
I-JEPA가 손으로 만든 데이터 확대에 의존하지 않고 높은 수준의 표현을 학습한다는 것을 입증하기 위해 이 논문에서는 선형 감지 및 부분 미세 조정 프로토콜을 사용하여 다양한 이미지 분류 작업에 대한 결과를 보고합니다. 이 섹션에서는 ImageNet-1K 데이터 세트에 대해 사전 훈련된 자체 감독 모델을 고려합니다. 사전 교육 및 평가 구현 세부 사항은 부록 A를 참조하세요. 모든 I-JEPA 모델은 별도로 명시하지 않는 한 해상도 224×224로 훈련됩니다.
ImageNet-1K 표 1은 일반적인 ImageNet-1K 선형 평가 벤치마크의 성능을 보여줍니다. 자체 감독 사전 훈련 후에는 모델 가중치가 고정되고 전체 ImageNet-1K 훈련 세트를 사용하여 선형 분류기가 훈련됩니다. 훈련 전에 손으로 만든 광범위한 데이터 확대에 의존하지 않는 인기 있는 마스크 자동 인코더(MAE) 및 data2vec 방법과 비교할 때, 이 논문에서는 I-JEPA가 더 적은 양의 계산을 사용하면서 선형 감지 성능을 크게 향상시키는 것으로 나타났습니다. 또한 I-JEPA는 규모의 이점을 누리고 있습니다. 해상도 448로 훈련된 ViT-H/16은 추가적인 수동 데이터 증대 없이도 iBOT과 같은 뷰 불변 방법의 성능과 일치합니다.
낮은 샘플 크기 ImageNet-1K. 표 2는 1% ImageNet 벤치마크의 성능을 보여줍니다. 이러한 방법은 ImageNet 분류를 위해 사전 훈련된 모델을 활용하며, 카테고리당 약 12개 또는 13개의 이미지가 포함된 ImageNet 레이블의 1%만을 사용합니다. 모델은 각 방법에 가장 적합한 방법에 따라 미세 조정 또는 선형 프로빙을 통해 조정됩니다. 유사한 인코더 아키텍처를 사용할 때 I-JEPA는 MAE보다 성능이 뛰어나며 사전 훈련 기간이 더 적게 필요합니다. ViTH/14 아키텍처를 사용하는 I-JEPA는 데이터 2vec를 사용하여 사전 훈련된 ViT-L/16과 비슷한 성능을 갖지만 계산 부하가 훨씬 적습니다. 이미지 입력 해상도를 높임으로써 I-JEPA는 MSN, DINO 및 iBOT
Transfer 학습과 같은 훈련 전 추가적인 수작업 데이터 증대 방법을 활용하고 공동 임베딩 방법을 포함하여 이전 방법보다 더 나은 성능을 발휘합니다. 표 3은 사용 성능을 보여줍니다. 다양한 다운스트림 이미지 분류 작업을 위한 선형 프로브. I-JEPA는 증강을 사용하지 않는 이전 방법(MAE 및 Data2vec)보다 훨씬 뛰어난 성능을 발휘하며 훈련 전에 손으로 만든 관점 불변성을 활용하는 최고의 방법으로 격차를 줄입니다. 심지어 CIFAR100 및 Place205 DINO에서 널리 사용되는 방법을 능가합니다.
5. 로컬 예측 작업
I-JEPA는 의미론적 이미지 표현을 학습하고 MAE 및 data2vec와 같은 이전 방법의 다운스트림 이미지 분류 성능을 크게 향상시킵니다. 또한 I-JEPA는 규모의 이점을 누리고 뷰 불변 기반 방법의 추가 수작업 데이터 확대를 활용하여 격차를 줄일 수 있습니다. 이 섹션에서는 I-JEPA가 로컬 이미지 특징을 학습하고 객체 계산 및 깊이 예측과 같은 저수준 및 집중적 예측 작업에서 뷰 불변 기반 방법보다 뛰어난 성능을 발휘할 수 있음을 확인했습니다.
표 4는 선형 프로빙을 사용한 다양한 하위 수준 작업의 성능을 보여줍니다. 특히, 사전 훈련 후에는 모델의 가중치가 고정되고 Clevr 데이터 세트에 대한 객체 계산 및 깊이 예측을 위해 선형 모델이 위에서 훈련됩니다. DINO 및 iBOT과 같은 뷰 불변 방법과 비교할 때 I-JEPA 방법은 훈련 전에 낮은 수준의 이미지 특징을 효과적으로 캡처하고 객체 계산(Clevr/Count) 및 (대체로) 깊이 예측(Clevr/Dist) 성능이 뛰어납니다. . 6. 확장성
다시 작성된 내용은 다음과 같습니다. 이전 방법과 비교하면 I-JEPA는 모델 효율성 측면에서 확장성이 뛰어납니다. 그림 5는 ImageNet-1K의 1%에 대한 GPU 시간 평가의 준지도 결과를 보여줍니다. I-JEPA는 이전 방법보다 계산이 덜 필요하며 수동 데이터 확장에 의존하지 않고도 강력한 성능을 달성합니다. 픽셀을 직접 타겟으로 사용하는 MAE와 같은 재구성 기반 방법과 비교하여 I-JEPA는 표현 공간에서 타겟을 계산하여 추가 오버헤드를 발생시킵니다(반복당 약 7% 느림)
스케일 데이터 크기. 또한 이 논문에서는 I-JEPA가 더 큰 데이터 세트에 대한 사전 교육을 통해 이점을 얻는다는 사실을 발견했습니다. 표 5는 사전 훈련 데이터 세트(IN1K vs IN22K)의 크기를 늘릴 때 의미론적 작업과 하위 수준 작업에 대한 전이 학습 성능을 보여줍니다. 이러한 개념적으로 구별되는 작업에 대한 전이 학습 성능은 더 크고 다양한 데이터 세트에 대해 사전 훈련될 때 향상됩니다. 확장 모델 크기. 표 5는 또한 I-JEPA가 IN22K에서 사전 훈련될 때 더 큰 모델 크기로부터 이점을 얻는다는 것을 보여줍니다. ViT-H/14 모델과 비교하여 ViT-G/16의 사전 훈련은 Place205 및 INat18과 같은 이미지 분류 작업의 다운스트림 성능을 크게 향상시킵니다. ViTG/16 모델은 낮은 수준의 다운스트림 작업에서 성능을 향상시키지 않습니다. ViT-G/16은 더 큰 입력 패치 크기를 사용하므로 로컬 예측 작업에 해로울 수 있습니다.
7. 예측기 시각화는 다시 작성될 수 있습니다
I-JEPA에서 예측기의 기능은 컨텍스트 인코더의 출력을 가져와서 위치 마스크 토큰에 대해 조건을 지정하는 것입니다. 해당 위치의 대상 블록. 한 가지 질문은 위치 마스크 토큰을 기반으로 한 예측자가 대상의 위치 불확실성을 올바르게 캡처하는 방법을 학습하고 있는지 여부입니다. 이 질문을 정성적으로 연구하기 위해 예측 변수의 출력을 시각화합니다. 사전 훈련 후 논문에서는 컨텍스트 인코더와 예측기의 가중치를 고정하고 RCDM 프레임워크에 따라 디코더를 훈련하여 예측기 출력의 평균 풀을 픽셀 공간에 다시 매핑합니다. 그림 6은 다양한 랜덤 시드에 대한 디코더 출력을 보여줍니다. 표본 전체에 공통적인 특징은 평균 통합 예측 변수 표현에 포함된 정보를 나타냅니다. I-JEPA 예측기는 위치 불확실성을 정확하게 포착하고 올바른 자세(예: 새의 뒷부분, 자동차 윗부분)를 가진 높은 수준의 물체 부분을 생성합니다. 서로 다른 샘플의 서로 다른 질량은 표현에 포함되지 않은 정보를 나타냅니다. 이 경우 I-JEPA 예측기는 정확한 하위 수준 세부 정보와 배경 정보를 삭제합니다.
8. 절제의 중요성
표현 공간에서 예측. 표 7은 픽셀 공간과 표현 공간에서 1% ImageNet-1K를 계산할 때 낮은 샷 성능을 비교합니다. 논문에서는 I-JEPA의 핵심 구성 요소가 손실이 표현 공간에서 완전히 계산되어 대상 인코더가 관련 없는 픽셀 수준 세부 사항을 제거하는 추상 예측 대상을 생성할 수 있도록 한다는 것이라고 추측합니다. 표 7에서 픽셀 공간에서의 예측은 선형 검출 성능의 상당한 저하로 이어진다는 것이 분명합니다.
재작성된 내용: 마스킹 전략이 표 8에서 수정되었습니다. 본 연구에서는 I-JEPA 사전 훈련 과정에서 제안한 다중 블록 마스크 전략에서 대상 블록 수를 줄이고 그림 4와 같이 컨텍스트 및 대상 블록의 규모를 조정했습니다. 다양한 다중 블록 설정을 사용하여 300세대 동안 I-JEPA를 훈련하고 선형 프로브를 사용하여 1% ImageNet-1K 벤치마크에서 성능 비교를 수행했습니다. 요약하면, 정보 제공(공간적으로 분산된) 컨텍스트 패치와 결합된 여러 개의 비교적 큰(의미론적) 대상 패치를 예측하는 것이 매우 중요하다는 것을 발견했습니다.
표 6은 다른 마스킹 전략과 비교하여 유사한 제거도 수행되었습니다. 이 논문에서는 이미지가 4개의 큰 사분면으로 분할되고 목표는 한 사분면을 컨텍스트로 사용하여 다른 3개 사분면을 예측하는 래스터화된 마스킹 전략과 비교합니다. 또한 이 논문에서는 재구성 기반 방법에 일반적으로 사용되는 기존 블록 및 무작위 마스킹 전략을 비교합니다. 블록 마스킹에서 대상은 단일 이미지 패치이고 컨텍스트는 이미지 보완입니다. 무작위 마스킹에서 대상은 이미지 패치의 무작위(불연속적일 수 있음) 집합이고 컨텍스트는 이미지의 보완입니다. 고려된 모든 마스킹 전략에서 컨텍스트와 대상 블록 사이에는 겹치는 부분이 없습니다. 제안된 다중 블록 마스킹 전략은 I-JEPA가 의미 표현을 학습하는 데 핵심입니다. 기존 블록 마스크로 전환해도 ImageNet 성능이 24% 이상 감소합니다.
9. 결론 논문
에서는 의미적 이미지 표현 학습을 위해 I-JEPA라는 방법을 제안했습니다. 이 방법은 손으로 만든 데이터 증대에 의존하지 않습니다. 연구에 따르면 표현 공간에서 예측을 수행함으로써 I-JEPA는 픽셀 재구성 방법보다 빠르게 수렴하고 높은 의미 수준 표현을 학습할 수 있습니다. 뷰 불변성을 기반으로 한 방법과 비교하여 I-JEPA는 손으로 만든 뷰 향상에 의존하지 않고 조인트 임베딩 아키텍처를 사용하여 일반 표현을 학습하는 경로를 강조합니다
Appendix 원문 보기, 원 링크: https://arxiv.org /abs /2301.08243
위 내용은 [논문해석] 그래프 기반 자기지도 학습 공동 임베딩 예측 아키텍처의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

현대 제조업에서 정확한 결함 검출은 제품 품질을 보장하는 열쇠일 뿐만 아니라 생산 효율성을 향상시키는 핵심이기도 합니다. 그러나 기존 결함 감지 데이터세트는 실제 적용에 필요한 정확성과 의미론적 풍부함이 부족한 경우가 많아 모델이 특정 결함 카테고리나 위치를 식별할 수 없게 됩니다. 이 문제를 해결하기 위해 광저우 과학기술대학교와 Simou Technology로 구성된 최고 연구팀은 산업 결함에 대한 상세하고 의미론적으로 풍부한 대규모 주석을 제공하는 "DefectSpectrum" 데이터 세트를 혁신적으로 개발했습니다. 표 1에서 볼 수 있듯이, 다른 산업 데이터 세트와 비교하여 "DefectSpectrum" 데이터 세트는 가장 많은 결함 주석(5438개의 결함 샘플)과 가장 상세한 결함 분류(125개의 결함 카테고리)를 제공합니다.

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

Editor |KX 오늘날까지 단순한 금속부터 큰 막 단백질에 이르기까지 결정학을 통해 결정되는 구조적 세부 사항과 정밀도는 다른 어떤 방법과도 비교할 수 없습니다. 그러나 가장 큰 과제인 소위 위상 문제는 실험적으로 결정된 진폭에서 위상 정보를 검색하는 것입니다. 덴마크 코펜하겐 대학의 연구원들은 결정 위상 문제를 해결하기 위해 PhAI라는 딥러닝 방법을 개발했습니다. 수백만 개의 인공 결정 구조와 그에 상응하는 합성 회절 데이터를 사용하여 훈련된 딥러닝 신경망은 정확한 전자 밀도 맵을 생성할 수 있습니다. 연구는 이 딥러닝 기반의 순순한 구조 솔루션 방법이 단 2옹스트롬의 해상도로 위상 문제를 해결할 수 있음을 보여줍니다. 이는 원자 해상도에서 사용할 수 있는 데이터의 10~20%에 해당하는 반면, 기존의 순순한 계산은

AI의 경우 수학 올림피아드는 더 이상 문제가 되지 않습니다. 목요일에 Google DeepMind의 인공 지능은 AI를 사용하여 올해 국제 수학 올림피아드 IMO의 실제 문제를 해결하는 위업을 달성했으며 금메달 획득에 한 걸음 더 다가섰습니다. 지난 주 막 끝난 IMO 대회에는 대수학, 조합론, 기하학, 수론 등 6개 문제가 출제됐다. 구글이 제안한 하이브리드 AI 시스템은 4문제를 맞혀 28점을 얻어 은메달 수준에 이르렀다. 이달 초 UCLA 종신 교수인 테렌스 타오(Terence Tao)가 상금 100만 달러의 AI 수학 올림피아드(AIMO Progress Award)를 추진했는데, 예상외로 7월 이전에 AI 문제 해결 수준이 이 수준으로 향상됐다. IMO에서 동시에 질문을 해보세요. 가장 정확하게 하기 어려운 것이 IMO인데, 역사도 가장 길고, 규모도 가장 크며, 가장 부정적이기도 합니다.

Editor | ScienceAI 제한된 임상 데이터를 기반으로 수백 개의 의료 알고리즘이 승인되었습니다. 과학자들은 누가 도구를 테스트해야 하며 최선의 방법은 무엇인지에 대해 토론하고 있습니다. 데빈 싱(Devin Singh)은 응급실에서 오랜 시간 치료를 기다리던 중 심장마비를 겪는 소아환자를 목격했고, 이를 계기로 대기시간을 단축하기 위해 AI 적용을 모색하게 됐다. SickKids 응급실의 분류 데이터를 사용하여 Singh과 동료들은 잠재적인 진단을 제공하고 테스트를 권장하는 일련의 AI 모델을 구축했습니다. 한 연구에 따르면 이러한 모델은 의사 방문 속도를 22.3% 단축하여 의료 검사가 필요한 환자당 결과 처리 속도를 거의 3시간 단축할 수 있는 것으로 나타났습니다. 그러나 인공지능 알고리즘의 연구 성공은 이를 입증할 뿐이다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

2023년에는 AI의 거의 모든 분야가 전례 없는 속도로 진화하고 있다. 동시에 AI는 구체화된 지능, 자율주행 등 핵심 트랙의 기술적 한계를 지속적으로 확장하고 있다. 멀티모달 추세 하에서 AI 대형 모델의 주류 아키텍처인 Transformer의 상황이 흔들릴까요? MoE(Mixed of Experts) 아키텍처를 기반으로 한 대형 모델 탐색이 업계에서 새로운 트렌드가 된 이유는 무엇입니까? 대형 비전 모델(LVM)이 일반 비전 분야에서 새로운 돌파구가 될 수 있습니까? ...지난 6개월 동안 공개된 본 사이트의 2023 PRO 회원 뉴스레터에서 위 분야의 기술 동향과 산업 변화에 대한 심층 분석을 제공하여 새로운 환경에서 귀하의 목표 달성에 도움이 되는 10가지 특별 해석을 선택했습니다. 년. 준비하세요. 이 해석은 2023년 50주차에 나온 것입니다.
