자기 지도 학습을 통해 컴퓨터는 이미지, 음성, 텍스트의 구조를 학습하여 세상을 관찰하고 이해할 수 있습니다. 이는 최근 인공 지능의 많은 주요 발전을 주도했습니다.
전 세계 과학 연구자들이 이 분야에 많은 노력을 투자하는 반면, 현재 자기 지도 학습 알고리즘이 이미지, 음성, 텍스트 및 기타 양식에서 학습하는 방식에는 큰 차이가 있습니다. 따라서 인공지능 포럼인 Analytics India Magazine은 독자들을 위해 2022년 상위 10개 자기 지도 학습 모델을 출시합니다.
문서 링크: https://arxiv.org/pdf/2202.03555.pdf
오픈 소스 코드: https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj
Meta AI는 지난 1월 음성, 이미지, 텍스트 관련 컴퓨터 비전 모델을 위한 data2vec 알고리즘을 출시했습니다. AI 팀에 따르면 이 모델은 NLP 작업에서 경쟁력이 매우 높다고 합니다.
입력 예시에 의존하는 대조 학습이나 재구성을 사용하지 않습니다. Meta AI 팀은 data2vec의 학습 방법은 입력 데이터의 부분적인 보기를 제공하여 예측 모델을 표현하는 것이라고 밝혔습니다.
팀에서는 "먼저 학생 모델에서 마스크된 훈련 샘플을 인코딩합니다. 그 후 동일한 모델에서 마스크되지 않은 입력 샘플을 인코딩하여 훈련 목표를 구축합니다. 이 모델(교사 모델)과 학생 모델 "
모델은 마스크된 훈련 샘플을 기반으로 마스크되지 않은 훈련 샘플의 모델 표현을 예측합니다. 이는 학습 과제에서 양상별 목표에 대한 의존성을 제거합니다. Conconvnextnepaper 링크 : https://arxiv.org/pdf/2201.03545.pdf
open 소스 코드 : https://t.co/nwx2kftl7x
VICReg
논문 링크: https://t.co/H7crDPHCHV
오픈 소스 코드: https://t.co/oadSBT61P3
VICReg는 분기 간 가중치 공유, 배치 정규화, 기능 정규화, 출력 양자화, 기울기 중지, 메모리 뱅크 등과 같은 기술을 필요로 하지 않으며 여러 가지에서 최첨단에 필적하는 결과를 달성합니다. 다운스트림 작업. 또한 분산 정규화 항이 다른 방법의 훈련을 안정화하고 성능 향상을 촉진할 수 있다는 것이 실험적으로 입증되었습니다.
STEGO
문서 링크: https://arxiv.org/abs/2203.08414
MIT 컴퓨터 과학 및 인공 지능 연구소에서 Microsoft 및 코넬 대학과 협력하여 개발 에너지용 자가 감독 변압기 STEGO(그래프 최적화)는 컴퓨터 비전에서 가장 어려운 작업 중 하나인 사람의 감독 없이 이미지의 모든 픽셀에 레이블을 할당하는 작업을 해결합니다.
이미지가 객체의 간섭을 받을 수 있기 때문에 의미론적 분할은 오늘날의 컴퓨터 비전 시스템에 중요한 기술입니다. 설상가상으로 이러한 개체는 항상 텍스트 상자에 맞지 않습니다. 알고리즘은 식물, 하늘, 으깬 감자와 같이 정량화하기 어려운 것보다 사람과 자동차와 같은 개별 "사물"에 더 적합한 경우가 많습니다.
개들이 공원에서 노는 장면을 예로 들어보겠습니다. 이전 시스템에서는 개만 식별할 수 있었지만 STEGO는 이미지의 각 픽셀에 라벨을 할당하여 이미지를 개, 하늘 등 여러 주요 구성 요소로 분해할 수 있습니다. , 잔디 및 그 소유자.
"세상을 볼" 수 있는 기계는 자율주행차, 의료 진단을 위한 예측 모델 등 다양한 신기술에 매우 중요합니다. STEGO는 레이블 없이 학습할 수 있기 때문에 인간이 아직 완전히 이해하지 못하는 객체를 포함한 다양한 영역의 객체를 감지할 수 있습니다.
논문 링크: https://arxiv.org/pdf/2210.04062.pdf
자기 지도 음성 표현 학습을 위해 홍콩 중문 대학교(심천)의 연구원들이 제안했습니다. 코드 BERT(CoBERT). 다른 자가 증류 방법과 달리 해당 모델은 다양한 양식의 표현을 예측합니다. 이 모델은 표현 학습을 위해 음성을 일련의 개별 코드로 변환합니다.
먼저 연구팀은 HuBERT 사전 학습 코드 모델을 사용하여 이산 공간에서 학습했습니다. 그런 다음 양식 전반에 걸쳐 더 나은 학습을 수행하는 것을 목표로 코드 모델을 음성 모델로 개선했습니다. ST 작업의 상당한 개선은 CoBERT의 표현이 이전 작업보다 더 많은 언어 정보를 전달할 수 있음을 시사합니다.
CoBERT는 ASR 작업에서 현재 최고의 알고리즘 성능을 능가하며 SUPERB 음성 번역(ST) 작업을 크게 향상시킵니다.
문서 링크: https://arxiv.org/abs/2207.09158
FedX는 Microsoft가 칭화대학교, 한국과학원과 협력하여 출시한 비지도 연합 학습 프레임워크입니다. 기술. 로컬 및 글로벌 지식 추출과 비교 학습을 통해 알고리즘은 이산적이고 이질적인 로컬 데이터로부터 편향되지 않은 표현을 학습합니다. 또한, 연합 학습 시나리오에서 기존의 다양한 자기 지도 알고리즘에 추가 모듈로 사용할 수 있는 적응형 알고리즘입니다.
논문 링크: https://arxiv.org/pdf/2206.03012.pdf
일본 홋카이도 대학은 소규모 배치 자기 지도 표현 학습을 위해 TriBYOL을 제안했습니다. 이 모델에서는 연구자가 좋은 표현을 학습하기 위해 많은 양의 컴퓨팅 리소스가 필요하지 않습니다. 이 모델은 삼중 네트워크 구조를 가지며 3개 뷰 손실을 결합하여 효율성을 향상하고 여러 데이터 세트에서 여러 자체 감독 알고리즘보다 성능이 뛰어납니다.
문서 링크: https://arxiv.org/pdf/2202.00758.pdf
Nokia Bell Labs의 연구원들은 ColloSSL을 개발하기 위해 Georgia Institute of Technology 및 Cambridge University와 협력했습니다. , 이는 인간 활동 인식을 위한 협업적 자기 지도 알고리즘입니다.
여러 장치에서 동시에 캡처한 레이블이 지정되지 않은 센서 데이터 세트는 서로의 자연스러운 변환으로 볼 수 있으며, 이는 표현 학습을 위한 신호를 생성합니다. 본 논문에서는 장치 선택, 대조 샘플링, 다중 시점 대조 손실의 세 가지 방법을 제안합니다.
논문 링크: https://arxiv.org/pdf/2207.10023.pdf
성균관대학교 연구팀은 LoRot(Locatable Rotation)의 세 가지 속성을 예측하는 간단한 자가 지도 보조 작업을 제안했습니다. 목표를 모니터링하는 데 도움이 됩니다.
이 모델에는 세 가지 주요 기능이 있습니다. 먼저, 연구팀은 모델이 풍부한 기능을 학습하도록 안내했습니다. 둘째, 자기지도 전환이 발생하는 동안 분산 훈련은 크게 변하지 않습니다. 셋째, 이 모델은 가볍고 다재다능하며 이전 기술에 대한 적응성이 높습니다.
논문 링크: https://arxiv.org/pdf/2106.10466.pdf
Microsoft와 Peking University는 임의의 의미론을 위한 일반 학습 프레임워크 TS2Vec을 제안했습니다. 시간의 표현 학습 레벨별로 시리즈. 이 모델은 향상된 컨텍스트 보기에서 계층적 기술로 대조 학습을 수행하여 개별 타임스탬프에 대한 강력한 컨텍스트 표현을 제공합니다.
결과에 따르면 TS2Vec 모델은 최첨단 비지도 시계열 표현 학습에 비해 성능이 크게 향상되었습니다.
2022년에는 자기주도학습과 강화학습 두 분야에 엄청난 혁신이 일어날 것입니다. 연구자들은 어느 것이 더 중요한지 논쟁을 벌여왔지만 자기 지도 학습 전문가 Yann LeCun은 다음과 같이 말했습니다. "강화 학습은 케이크 위의 체리와 같고 지도 학습은 케이크 위의 장식이며 자기 지도 학습은 케이크 그 자체입니다. 》
참조:
https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/
위 내용은 2022년 Top10 자기주도학습 모델 출시! 미국과 중국의 8개 성과가 목록을 장악하고 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!