목차
문제 설정
자기 지도 학습의 클러스터링 프로세스 공개
의미 범주 학습 및 무작위성의 영향 탐색
범주 계층 구조 및 중간 계층 이해
기술 주변기기 일체 포함 Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.

Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.

Jun 15, 2023 am 11:27 AM
연구 감독하다

자기 지도 학습(SSL)은 최근 몇 년 동안 큰 발전을 이루었으며 많은 다운스트림 작업에서 지도 학습 방법 수준에 거의 도달했습니다. 그러나 모델의 복잡성과 주석이 달린 훈련 데이터 세트의 부족으로 인해 학습된 표현과 기본 작동 메커니즘을 이해하기가 어려웠습니다. 또한 자기 지도 학습에 사용되는 프리텍스트 작업은 특정 다운스트림 작업과 직접적으로 관련되지 않는 경우가 많으므로 학습된 표현을 해석하는 복잡성이 더욱 증가합니다. 지도 분류에서 학습된 표현의 구조는 종종 매우 간단합니다.

기존 분류 작업(샘플을 특정 범주로 정확하게 분류하는 것이 목표)과 비교하여 최신 SSL 알고리즘의 목표는 일반적으로 두 가지 주요 구성 요소가 포함된 손실 함수를 최소화하는 것입니다. 하나는 향상된 샘플을 클러스터링하는 것입니다(불변성 제약 조건). 두 번째는 표현 붕괴(정규화 제약)를 방지하는 것입니다. 예를 들어, 서로 다른 향상을 거친 동일한 샘플에 대해 대조 학습 방법의 목표는 이러한 샘플의 분류 결과를 동일하게 만드는 동시에 서로 다른 향상된 샘플을 구별할 수 있도록 하는 것입니다. 반면, 비대비 방법은 표현 붕괴를 피하기 위해 정규화 도구를 사용합니다.

자기 지도 학습은 보조 작업(구실)의 비지도 데이터를 사용하여 자체 감독 정보를 마이닝하고, 이렇게 구성된 감독 정보를 통해 네트워크를 훈련하여 다운스트림 작업에 대한 귀중한 표현을 학습할 수 있습니다. 최근 Turing Award 수상자 Yann LeCun을 포함한 몇몇 연구자들은 자기 지도 학습을 역설계하여 훈련 과정의 내부 동작을 이해할 수 있게 해준다고 주장하는 연구를 발표했습니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

논문 주소: https://arxiv.org/abs/2305.15614v2

본 논문은 세심하게 설계된 일련의 실험을 통해 SLL을 사용한 표현 학습에 대한 심층 분석을 수행합니다. 사람들은 훈련 중에 클러스터링 프로세스를 이해합니다. 특히, 우리는 증강 샘플이 동일한 이미지를 공유하는 증강 샘플의 의미 임베딩 주위에 중심을 형성하는 고도로 클러스터된 동작을 나타냄을 밝힙니다. 더욱 예상치 못하게, 연구자들은 대상 작업에 대한 명시적인 정보가 없더라도 의미론적 레이블을 기반으로 샘플이 클러스터링된 것을 관찰했습니다. 이는 의미론적 유사성을 기반으로 샘플을 그룹화하는 SSL의 기능을 보여줍니다.

문제 설정

자체 지도 학습(SSL)은 다운스트림 작업을 위한 모델을 준비하기 위한 사전 훈련에 자주 사용되므로 SSL 훈련이 학습된 표현에 어떤 영향을 미칩니까? 구체적으로 SSL은 교육 중에 내부적으로 어떻게 작동하며 이러한 표현 기능은 어떤 범주를 학습할 수 있습니까?

이러한 문제를 조사하기 위해 연구원들은 SSL 네트워크를 여러 설정으로 교육하고 다양한 기술을 사용하여 동작을 분석했습니다.

데이터 및 증강: 이 기사에 언급된 모든 실험은 CIFAR100 이미지 분류 데이터 세트를 사용했습니다. 모델을 훈련하기 위해 연구원들은 SimCLR에서 제안된 이미지 향상 프로토콜을 사용했습니다. 각 SSL 교육 세션은 모멘텀이 있는 SGD 최적화 프로그램을 사용하여 1000세대 동안 실행됩니다.

백본 아키텍처: 모든 실험에서는 RES-L-H 아키텍처를 백본으로 사용하고 두 레이어의 MLP(다층 퍼셉트론) 프로젝션 헤드를 결합했습니다.

선형 프로빙: 표현 함수에서 주어진 이산 함수(예: 카테고리)를 추출하는 효과를 평가하기 위해 여기서 사용되는 방법은 선형 프로빙입니다. 이를 위해서는 이 표현을 기반으로 하는 선형 분류기(선형 프로브라고도 함)를 훈련해야 하며, 여기에는 일부 훈련 샘플이 필요합니다.

샘플 수준 분류: 샘플 수준 분리성을 평가하기 위해 연구원들은 전용 새 데이터 세트를 만들었습니다.

훈련 데이터 세트에는 CIFAR-100 훈련 세트의 무작위 이미지 500개가 포함되어 있습니다. 각 이미지는 특정 카테고리를 나타내며 100가지 다른 방식으로 향상됩니다. 따라서 훈련 데이터세트에는 500개 카테고리의 총 50,000개 샘플이 포함되어 있습니다. 테스트 세트는 여전히 이러한 500개의 이미지를 사용하지만 모두 동일한 배포판의 20가지 향상된 기능을 사용합니다. 따라서 테스트 세트의 결과는 10,000개의 샘플로 구성됩니다. 주어진 표현함수의 선형 또는 NCC(Nearest class-center/Nearest Class Center) 정확도를 샘플 수준에서 측정하기 위해 여기서 채택한 방법은 먼저 훈련 데이터를 사용하여 해당 분류기를 계산한 후 이를 계산하는 것입니다. 해당 테스트 세트에 대한 정확성을 평가합니다.

자기 지도 학습의 클러스터링 프로세스 공개

클러스터링 프로세스는 딥 러닝 모델 분석에 항상 중요한 역할을 해왔습니다. SSL 훈련을 직관적으로 이해하기 위해 그림 1은 훈련 전후의 상황을 포함하고 여러 수준으로 구분된 UMAP을 통해 네트워크의 훈련 샘플의 임베딩 공간을 시각화합니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 1: SSL 교육으로 유도된 의미 클러스터링

예상대로 교육 프로세스는 샘플 수준에서 샘플을 성공적으로 클러스터링하여 동일한 이미지의 다양한 향상을 매핑했습니다. (첫 번째 행에 표시된 대로) 목적 함수 자체가 (불변 손실 항을 통해) 이 동작을 장려한다는 점을 고려하면 이 결과는 예상치 못한 것이 아닙니다. 그러나 더 주목할만한 점은 훈련 과정에서 레이블이 부족함에도 불구하고 이 훈련 프로세스가 표준 CIFAR-100 데이터 세트의 원래 "의미 범주"를 기반으로 클러스터링된다는 것입니다. 흥미롭게도 더 높은 수준(상위 범주)도 효율적으로 클러스터링될 수 있습니다. 이 예에서는 훈련 프로세스가 샘플 수준에서 클러스터링을 직접적으로 장려하지만 SSL 훈련의 데이터 표현도 의미론적 범주에 따라 다양한 수준에서 클러스터링된다는 것을 보여줍니다.

이 클러스터링 프로세스를 더욱 정량화하기 위해 연구원들은 VICReg를 사용하여 RES-10-250을 교육했습니다. 연구원들은 샘플 수준과 원래 범주를 기반으로 NCC 훈련 정확도를 측정했습니다. SSL로 훈련된 표현이 샘플 수준에서 신경 붕괴를 나타내지만(NCC 훈련 정확도는 1.0에 가까움) 의미론적 범주 측면에서 클러스터링도 중요합니다(원래 목표에서 약 1.0) 0.41).

그림 2의 왼쪽 그림에서 볼 수 있듯이 강화와 관련된 대부분의 클러스터링 프로세스(네트워크가 직접 교육됨)는 교육 프로세스의 초기 단계에서 발생하고 의미 범주 측면에서 클러스터링되는 동안 정체됩니다. (훈련 목표( 에 지정되지 않음)는 훈련 중에 계속해서 개선됩니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 2: SSL 알고리즘은 의미론적 대상 쌍에 따라 데이터를 클러스터링합니다.

이전 연구자들은 감독 훈련 샘플의 최상위 수준 임베딩이 점차 클래스 중심으로 이동할 것임을 관찰했습니다. 구조적 수렴 . SSL 훈련 표현 함수의 클러스터링 특성을 더 잘 이해하기 위해 SSL 중에 유사한 상황을 조사했습니다. NCC 분류기는 선형 분류기이며 최고의 선형 분류기보다 더 나은 성능을 발휘하지 않습니다. 동일한 데이터에 대해 훈련된 선형 분류기와 비교하여 NCC 분류기의 정확도를 평가하여 다양한 세분성 수준에서 데이터 클러스터링을 연구할 수 있습니다. 그림 2의 중간 패널은 초기화된 값으로 정규화된 값을 사용하여 샘플 수준 범주와 원래 대상 범주에 걸쳐 이 비율의 진화를 보여줍니다. SSL 훈련이 진행됨에 따라 NCC 정확도와 선형 정확도 사이의 격차가 작아지며, 이는 증강된 샘플이 샘플 ID 및 의미론적 속성을 기반으로 클러스터링 수준을 점진적으로 향상한다는 것을 나타냅니다.

또한 그림은 샘플 수준의 비율이 초기에 더 높을 것임을 보여주며, 이는 증가된 샘플이 중심에 수렴할 때까지 ID에 따라 클러스터링됨을 나타냅니다(NCC 정확도와 선형 정확도 간의 비율은 다음과 같습니다). 100세대에서 ≥ 0.9). 그러나 훈련이 계속됨에 따라 샘플 수준 비율은 포화되는 반면 클래스 수준 비율은 계속 증가하여 약 0.75로 수렴됩니다. 이는 향상된 샘플이 먼저 샘플 ID에 따라 클러스터링되고 구현 후에 상위 수준 의미 카테고리에 따라 클러스터링됨을 보여줍니다.

SSL 훈련의 암시적 정보 압축

압축을 효과적으로 수행할 수 있다면 유익하고 유용한 표현을 얻을 수 있습니다. 그러나 SSL 교육 중에 이러한 압축이 발생하는지 여부는 여전히 연구한 사람이 거의 없는 주제입니다.

이를 이해하기 위해 연구원들은 훈련 중에 입력과 해당 내장 표현 간의 상호 정보를 추정하는 방법인 상호 정보 신경 추정(MINE)을 사용했습니다. 이 메트릭은 인코딩된 정보(비트 수)의 양을 표시하여 표현의 복잡성 수준을 효과적으로 측정하는 데 사용할 수 있습니다.

그림 3의 중간 패널은 5개의 서로 다른 MINE 초기화 시드에 대해 계산된 평균 상호 정보를 보고합니다. 그림에서 볼 수 있듯이 훈련 프로세스 중에 상당한 압축이 발생하여 매우 컴팩트한 훈련 표현이 생성됩니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

왼쪽 차트는 SSL 교육 모델 교육 중 정규화 및 불변성 손실의 변화와 원래 목표 선형 테스트 정확도를 보여줍니다. (가운데) 훈련 중 입력과 표현 간의 상호 정보 압축. (오른쪽) SSL 교육은 클러스터 표현을 학습합니다.

정규화 손실의 역할

목적 함수에는 불변성과 정규화라는 두 가지 항목이 포함됩니다. 불변성 항의 주요 기능은 동일한 샘플의 다르게 강화된 표현 간의 유사성을 강화하는 것입니다. 정규화 용어의 목표는 표현 붕괴를 방지하는 것입니다.

클러스터링 프로세스에서 이러한 구성 요소의 역할을 탐색하기 위해 연구원들은 목적 함수를 불변성 항과 정규화 항으로 분해하고 훈련 과정에서 이들의 동작을 관찰했습니다. 비교 결과는 그림 3의 왼쪽 패널에 표시되어 있으며, 원래 의미 목표에 대한 손실 항의 진화와 선형 테스트 정확도가 제공됩니다. 대중적인 믿음과는 달리, 불변성 손실 항은 훈련 중에 크게 개선되지 않습니다. 대신 정규화 손실을 줄임으로써 손실(및 다운스트림 의미 정확도)이 향상됩니다.

SSL의 훈련 프로세스의 대부분은 샘플 수준 분류 정확도 및 클러스터링보다는 의미론적 정확도 및 학습된 표현의 클러스터링을 향상시키는 것이라고 결론 내릴 수 있습니다.

본질적으로, 여기에서 발견한 결과에 따르면 자기 지도 학습의 직접적인 목표는 샘플 수준 분류이지만 실제로 대부분의 훈련 시간은 다양한 수준의 의미 범주를 기반으로 데이터를 클러스터링하는 데 소비됩니다. 이러한 관찰은 클러스터링을 통해 의미상 의미 있는 표현을 생성하는 SSL 방법의 능력을 보여 주며, 이를 통해 기본 메커니즘을 이해할 수도 있습니다.

지도 학습과 SSL 클러스터링의 비교

심층 네트워크 분류기는 훈련 샘플을 카테고리에 따라 다양한 중심으로 클러스터링하는 경향이 있습니다. 그러나 학습된 기능이 실제로 클러스터링되려면 이 속성이 테스트 샘플에 대해 여전히 유효해야 합니다. 이는 우리가 기대하는 효과이지만 효과는 약간 더 나빠질 것입니다.

여기서 흥미로운 질문: SSL은 지도 학습에 의한 클러스터링과 비교하여 샘플의 의미론적 범주를 기반으로 클러스터링을 어느 정도 수행할 수 있습니까? 그림 3의 오른쪽 패널은 다양한 시나리오(향상된 지도 학습 및 SSL 포함 여부)에 대한 교육 종료 시 NCC 교육 및 테스트 정확도 비율을 보고합니다.

지도 분류기의 NCC 훈련 정확도는 1.0으로 SSL 훈련 모델의 NCC 훈련 정확도보다 상당히 높지만, SSL 모델의 NCC 테스트 정확도는 NCC 테스트 정확도보다 약간 높습니다. 감독 모델 지출. 이는 의미 범주에 따른 두 모델의 클러스터링 행위가 어느 정도 유사함을 보여준다. 흥미롭게도, 지도 모델을 훈련하기 위해 증강된 샘플을 사용하면 NCC 훈련 정확도가 약간 감소하지만 NCC 테스트 정확도는 크게 향상됩니다.

의미 범주 학습 및 무작위성의 영향 탐색

의미 범주는 입력의 고유 패턴을 기반으로 입력과 대상 간의 관계를 정의합니다. 반면, 입력을 임의의 대상에 매핑하면 식별 가능한 패턴이 부족하여 입력과 대상 간의 연결이 임의적으로 보입니다.

연구원들은 또한 모델 학습에 필요한 목표의 숙련도에 대한 무작위성이 미치는 영향을 조사했습니다. 이를 위해 그들은 무작위성의 정도가 다양한 일련의 목표 시스템을 구축한 다음, 무작위성이 학습된 표현에 미치는 영향을 조사했습니다. 그들은 분류에 사용된 동일한 데이터세트에서 신경망 분류기를 훈련한 다음, 다양한 시대의 대상 예측을 다양한 무작위도를 가진 대상으로 사용했습니다. 에포크 0에서는 네트워크가 완전히 무작위이며 결정적이지만 겉으로는 임의적인 라벨을 얻습니다. 학습이 진행됨에 따라 해당 기능의 무작위성은 감소하고 결국에는 Ground Truth 타겟(완전히 무작위가 아닌 것으로 간주될 수 있음)과 일치하는 타겟을 얻습니다. 여기서 무작위성의 정도는 0(훈련 종료 시 전혀 무작위가 아님)에서 1(초기화 시 완전히 무작위) 범위로 정규화됩니다.

그림 4 왼쪽 그림은 다양한 무작위 목표에 대한 선형 테스트 정확도를 보여줍니다. 각 라인은 무작위성의 정도가 다른 SSL의 다양한 훈련 단계의 정확도에 해당합니다. 훈련 중에 모델은 "의미론적" 목표(낮은 무작위성)에 더 가까운 범주를 보다 효율적으로 캡처하는 반면, 높은 무작위성 목표에서는 상당한 성능 향상을 나타내지 않음을 알 수 있습니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 4: SSL은 무작위 대상이 아닌 의미 체계 대상을 지속적으로 학습합니다.

딥 러닝의 핵심 문제는 다양한 유형의 범주를 분류하는 중간 계층의 역할을 이해하는 것입니다. 그리고 영향력. 예를 들어, 서로 다른 레이어가 서로 다른 유형의 범주를 학습하게 됩니까? 연구원들은 또한 다양한 목표 무작위성 수준에서 훈련이 끝날 때 다양한 표현 계층의 선형 테스트 정확도를 평가하여 이 문제를 조사했습니다. 그림 4의 중간 패널에 표시된 것처럼 선형 테스트 정확도는 무작위성이 감소함에 따라 계속해서 향상되고 더 깊은 계층은 모든 범주 유형에서 더 나은 성능을 발휘하며 의미 범주에 가까운 분류에서는 성능 격차가 더 커집니다.

연구원들은 클러스터링 품질을 평가하기 위해 NCC 정확도, CDNV, 클래스별 평균 분산, 클래스 평균 간의 평균 제곱 거리 등 몇 가지 다른 측정항목도 사용했습니다. 훈련을 통해 표현이 어떻게 향상되는지 측정하기 위해 의미론적 목표와 무작위 목표에 대한 이러한 측정항목의 비율을 계산했습니다. 그림 4의 오른쪽 패널은 이러한 비율을 보여줍니다. 이는 표현이 무작위 목표보다는 의미론적 목표를 기반으로 데이터 클러스터링을 선호한다는 것을 보여줍니다. 흥미롭게도 CDNV(분산을 거리 제곱으로 나눈 값)는 거리 제곱이 감소함에 따라 감소한다는 것을 알 수 있습니다. 훈련 중에는 분산 비율이 상당히 안정적입니다. 이로 인해 클러스터 사이의 간격이 넓어지고, 이는 성능 향상으로 이어지는 것으로 나타났습니다.

범주 계층 구조 및 중간 계층 이해

이전 연구에서는 지도 학습에서 중간 계층이 점차 다양한 추상화 수준에서 특징을 포착한다는 사실이 입증되었습니다. 초기 레이어는 낮은 수준의 기능을 지향하는 경향이 있는 반면, 더 깊은 레이어는 보다 추상적인 기능을 캡처합니다. 다음으로 연구원들은 SSL 네트워크가 더 높은 수준에서 계층적 속성을 학습할 수 있는지, 그리고 어떤 수준이 이러한 속성과 더 잘 연관되는지 조사했습니다.

실험에서는 샘플 수준, 원래 100개 범주, 20개 상위 범주의 세 가지 수준에서 선형 테스트 정확도를 계산했습니다. 그림 2의 오른쪽 패널은 이러한 세 가지 다른 범주 세트에 대해 계산된 수량을 제공합니다. 훈련 과정에서 원래 카테고리와 상위 카테고리 수준의 성능 향상이 샘플 수준의 성능 향상보다 더 큰 것을 볼 수 있습니다.

다음은 SSL 훈련 모델의 중간 계층의 동작과 다양한 수준에서 목표를 포착하는 능력입니다. 그림 5의 왼쪽 및 중간 패널은 원래 목표와 상위 목표가 측정되는 다양한 훈련 단계의 모든 중간 레이어에 대한 선형 테스트 정확도를 제공합니다. 그림 5의 오른쪽 패널은 상위 카테고리와 원래 카테고리 간의 비율을 제공합니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 5: SSL은 전체 중간 계층에서 의미 범주를 효과적으로 학습할 수 있습니다.

연구원들은 이러한 결과를 바탕으로 몇 가지 결론에 도달했습니다. 첫째, 레이어가 깊어질수록 클러스터링 효과가 지속적으로 향상되는 것을 볼 수 있습니다. 또한, 지도 학습의 경우와 유사하게, 연구원들은 SSL 훈련 중에 네트워크의 각 계층의 선형 정확도가 향상되는 것을 발견했습니다. 특히 그들은 최종 레이어가 원래 클래스에 대한 최적의 레이어가 아니라는 사실을 발견했습니다. 최근 일부 SSL 연구에 따르면 다운스트림 작업은 다양한 알고리즘의 성능에 큰 영향을 미칠 수 있습니다. 우리의 연구는 이러한 관찰을 확장하여 네트워크의 다양한 부분이 다양한 다운스트림 작업 및 작업 수준에 적합할 수 있음을 제안합니다. 그림 5의 오른쪽 패널에 따르면 네트워크의 더 깊은 계층에서 슈퍼 카테고리의 정확도가 원래 카테고리의 정확도보다 더 향상되는 것을 볼 수 있습니다.

위 내용은 Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

모델, 데이터 및 프레임워크에 대한 심층 분석: 효율적인 대규모 언어 모델에 대한 철저한 54페이지 검토 모델, 데이터 및 프레임워크에 대한 심층 분석: 효율적인 대규모 언어 모델에 대한 철저한 54페이지 검토 Jan 14, 2024 pm 07:48 PM

대규모 언어 모델(LLM)은 자연어 이해, 언어 생성, 복잡한 추론을 비롯한 여러 중요한 작업에서 강력한 기능을 입증했으며 사회에 지대한 영향을 미쳤습니다. 그러나 이러한 뛰어난 기능을 사용하려면 상당한 교육 리소스(왼쪽 참조)와 긴 추론 시간(오른쪽 참조)이 필요합니다. 따라서 연구자들은 효율성 문제를 해결하기 위한 효과적인 기술적 수단을 개발해야 합니다. 또한 그림의 오른쪽에서 볼 수 있듯이 Mistral-7B와 같은 일부 효율적인 LLM(LanguageModel)이 LLM의 설계 및 배포에 성공적으로 사용되었습니다. 이러한 효율적인 LLM은 LLaMA1-33B와 유사한 정확도를 유지하면서 추론 메모리를 크게 줄일 수 있습니다.

Nvidia의 차세대 GPU, H100을 깨다 공개! 2024년에 공개된 최초의 3nm 멀티칩 모듈 디자인 Nvidia의 차세대 GPU, H100을 깨다 공개! 2024년에 공개된 최초의 3nm 멀티칩 모듈 디자인 Sep 30, 2023 pm 12:49 PM

3nm 공정, H100을 능가하는 성능! 최근 외신 디지타임스는 엔비디아가 차세대 GPU인 B100(코드명 '블랙웰')을 인공지능(AI)과 고성능컴퓨팅(HPC) 애플리케이션용 제품으로 개발 중이라는 소식을 전했다. B100은 TSMC의 3nm 공정 공정과 더욱 복잡한 MCM(멀티 칩 모듈) 설계를 사용하며 2024년 4분기에 출시될 예정입니다. 인공지능 GPU 시장의 80% 이상을 독점하고 있는 엔비디아의 경우, B100을 이용해 철이 뜨거울 때 공격할 수 있고, 이번 AI 배치 물결에서 AMD, 인텔 등 도전자들을 더욱 공격할 수 있다. NVIDIA 추정에 따르면, 2027년까지 이 분야의 출력 가치는 대략적으로 도달할 것으로 예상됩니다.

확산 + 초해상도 모델의 강력한 조합, Google 이미지 생성기의 기술 Imagen 확산 + 초해상도 모델의 강력한 조합, Google 이미지 생성기의 기술 Imagen Apr 10, 2023 am 10:21 AM

최근에는 다중모달 학습이 많은 주목을 받고 있는데, 특히 텍스트-이미지 합성과 이미지-텍스트 대조 학습이라는 두 가지 방향에서 더욱 그렇습니다. OpenAI에서 출시한 텍스트 이미지 모델 DALL・E 및 DALL-E 2, NVIDIA의 GauGAN 및 GauGAN2와 같은 일부 AI 모델은 창의적인 이미지 생성 및 편집에 적용되어 광범위한 대중의 관심을 끌었습니다. 이에 뒤처지지 않기 위해 Google은 5월 말 자체 텍스트-이미지 모델 Imagen을 출시했는데, 이는 캡션 조건부 이미지 생성의 범위를 더욱 확장하는 것으로 보입니다. 장면에 대한 설명만 주어지면 Imagen은 고품질, 고해상도를 생성할 수 있습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서 Sep 25, 2023 pm 04:49 PM

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! Microsoft의 중국 연구원 7명이 집필한 이 책은 119페이지로 구성되어 있습니다. 이는 이미 완성되어 현재까지 선두에 있는 두 가지 유형의 다중 모드 대형 모델 연구 방향에서 시작하여 시각적 이해와 시각적 생성이라는 5가지 구체적인 연구 주제를 포괄적으로 요약합니다. 통합 시각적 모델 LLM이 지원하는 다중 모드 대형 모델 다중 모드 에이전트는 현상에 초점을 맞춥니다. 다중 모드 기본 모델은 전문화된 모델에서 범용 모델로 이동했습니다. Ps. 그래서 저자는 논문 서두에 도라에몽의 이미지를 직접 그렸습니다. 이 리뷰(보고서)를 누가 읽어야 합니까? Microsoft의 원래 말로: 전문 연구원이든 학생이든 다중 모달 기본 모델의 기본 지식과 최신 진행 상황을 배우는 데 관심이 있는 한 이 콘텐츠는 함께 모이는 데 매우 적합합니다.

SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다. SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다. Jan 15, 2024 pm 07:48 PM

이미지-비디오 생성(I2V) 작업은 정적 이미지를 동적 비디오로 변환하는 것을 목표로 하는 컴퓨터 비전 분야의 과제입니다. 이 작업의 어려움은 이미지 콘텐츠의 신뢰성과 시각적 일관성을 유지하면서 단일 이미지에서 시간 차원의 동적 정보를 추출하고 생성하는 것입니다. 기존 I2V 방법에는 이 목표를 달성하기 위해 복잡한 모델 아키텍처와 많은 양의 교육 데이터가 필요한 경우가 많습니다. 최근 Kuaishou가 주도한 새로운 연구 결과 "I2V-Adapter: AGeneralImage-to-VideoAdapter for VideoDiffusionModels"가 발표되었습니다. 본 연구에서는 혁신적인 이미지-비디오 변환 방법을 소개하고 경량 어댑터 모듈을 제안합니다.

2022 볼츠만상 발표: Hopfield Network 창립자가 수상 2022 볼츠만상 발표: Hopfield Network 창립자가 수상 Aug 13, 2023 pm 08:49 PM

2022년 볼츠만상을 수상한 두 명의 과학자가 발표되었습니다. 이 상은 IUPAP 통계물리학위원회(C3)가 통계물리학 분야에서 뛰어난 업적을 이룬 연구자를 표창하기 위해 제정한 것입니다. 우승자는 이전에 볼츠만상이나 노벨상을 수상한 적이 없는 과학자여야 합니다. 이 상은 1975년에 시작되었으며 통계 물리학의 창시자인 루트비히 볼츠만(Ludwig Boltzmann)을 기념하기 위해 3년마다 수여됩니다. 수상 이유: 자기 조직화의 정확한 해결을 포함하여 통계 물리학 분야에 대한 Deepak Dharistheoriginalstatement의 선구적인 공헌을 인정하여 수여됩니다. 중요 모델, 인터페이스 성장, 장애

VPR 2024 만점 시험지! Meta는 EfficientSAM을 제안합니다: 모든 것을 빠르게 분할하세요! VPR 2024 만점 시험지! Meta는 EfficientSAM을 제안합니다: 모든 것을 빠르게 분할하세요! Mar 02, 2024 am 10:10 AM

EfficientSAM의 이 작업은 CVPR2024에 5/5/5점 만점으로 포함되었습니다! 작가는 그 결과를 아래 사진처럼 소셜미디어에 공유했습니다. 르쿤 튜링상 수상자도 이 작품을 강력 추천했습니다! 최근 연구에서 Meta 연구진은 SAM을 사용한 SAMI(Mask Image Pre-training)라는 새로운 개선된 방법을 제안했습니다. 이 방법은 MAE 사전 훈련 기술과 SAM 모델을 결합하여 고품질 사전 훈련된 ViT 인코더를 달성합니다. SAMI를 통해 연구자들은 모델의 성능과 효율성을 개선하고 비전 작업을 위한 더 나은 솔루션을 제공하려고 노력합니다. 이 방법의 제안은 컴퓨터 비전 및 딥 러닝 분야를 더욱 탐구하고 개발할 수 있는 새로운 아이디어와 기회를 제공합니다. 서로 다른 것을 결합하여

Google AI 라이징 스타가 피카로 전환: 비디오 세대 뤼미에르, 창립 과학자 역할 Google AI 라이징 스타가 피카로 전환: 비디오 세대 뤼미에르, 창립 과학자 역할 Feb 26, 2024 am 09:37 AM

영상 생성이 본격화되고 있으며, 피카는 위대한 장군, 즉 피카의 창립 과학자인 구글 연구원 오메르 바르탈(Omer Bar-Tal)을 맞이했습니다. 한 달 전, 구글이 영상 생성 모델인 뤼미에르(Lumiere)를 공동저자로 출시했는데, 그 효과는 놀라웠다. 당시 네티즌들은 “구글이 영상 세대 전쟁에 합류했는데, 또 한 번 볼만한 좋은 쇼가 있다”고 말했다. StabilityAI CEO와 Google의 전 동료들을 포함하여 업계 관계자들이 축복을 보냈습니다. 뤼미에르의 첫 작품, 막 석사 학위를 취득한 오메르 바르탈(Omer Bar-Tal)은 2021년 텔아비브 대학교 수학과 컴퓨터과학과를 졸업한 뒤 와이즈만 과학원에서 컴퓨터 석사 과정을 공부했다. 주로 이미지 및 비디오 합성 분야의 연구에 중점을 두고 있습니다. 그의 논문 결과는 여러 차례 발표되었습니다

See all articles