장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.
딥 러닝이 이러한 성과를 거둘 수 있었던 것은 대규모의 비볼록 최적화 문제를 비교적 쉽게 해결할 수 있는 능력 덕분입니다. 비볼록 최적화는 NP-하드이지만 일반적으로 SGD(확률적 경사하강법)의 변형인 일부 간단한 알고리즘은 실제로 대규모 신경망을 피팅하는 데 놀라운 효율성을 보여주었습니다.
이 기사에서 University of Washington의 여러 학자들은 "Git Re-Basin: Merging Models modulo Permutation Symmetries"를 작성하여 딥 러닝의 고차원 비볼록 최적화 문제에 대한 SGD 알고리즘의 비합리적인 효율성을 연구했습니다. . 그들은 세 가지 질문에서 영감을 얻었습니다:
1. SGD가 고차원 비볼록 딥 러닝 손실 환경의 최적화에서 우수한 성능을 보이는 반면, 정책 학습, 궤적 최적화 및 추천과 같은 기타 비볼록 최적화 설정에서는 견고함을 유지하는 이유 시스템 대폭 감소?
2. 지역 최소값은 어디인가요? 초기화 가중치와 최종 훈련 가중치 사이를 선형 보간할 때 손실이 부드럽고 단조롭게 감소하는 이유는 무엇입니까?
3. 무작위 초기화와 데이터 일괄 처리 순서가 다른 두 개의 독립적으로 훈련된 모델이 거의 동일한 성능을 달성하는 이유는 무엇입니까? 또한 훈련 손실 곡선이 왜 동일하게 보이므로 다양한 훈련이 거의 동일한 성능을 나타냅니까?
왜 이런 일이 일어나는 걸까요? 2019년에 Brea 등은 신경망의 숨겨진 단위가 배열 대칭을 가지고 있음을 발견했습니다. 간단히 말해서, 네트워크의 숨겨진 계층에서 두 개의 유닛을 교환할 수 있으며 네트워크 기능은 동일하게 유지됩니다. Entezari et al.(2021)은 이러한 순열 대칭을 통해 손실을 타협하지 않고 가중치 공간의 점을 선형으로 연결할 수 있다고 추측했습니다.
아래에서는 모든 사람이 기사를 더 명확하게 이해할 수 있도록 기사의 주요 목적을 설명하기 위해 기사 작성자 중 한 사람의 예를 사용합니다.
나는 A 모델을 훈련했고 친구는 B 모델을 훈련했다고 가정하면, 두 모델의 훈련 데이터는 다를 수 있습니다. 문제가 되지 않습니다. 이 기사에서 제안한 Git Re-Basin을 사용하면 손실을 손상시키지 않고 가중치 공간에서 두 모델 A+B를 병합할 수 있습니다.
논문의 저자는 Git Re-Basin이 모든 신경망(NN)에 적용될 수 있다고 밝혔습니다. 그들은 처음으로 독립적으로 훈련된(사전 훈련되지 않은) 두 모델 사이를 시연했습니다. (ResNets), 장애물이 없는 선형 연결이 가능합니다.
병합 능력은 SGD 교육의 속성이며, 초기화 시에는 병합이 작동하지 않지만 위상 변화가 발생하므로 시간이 지나면 병합이 가능해짐을 발견했습니다.
또한 모든 아키텍처를 병합할 수 있는 것은 아닙니다. VGG는 ResNets보다 병합하기가 더 어려운 것 같습니다.
이 병합 방법에는 또 다른 장점이 있습니다. 분리되고 편향된 데이터 세트에 대해 모델을 훈련한 다음 가중치 공간에서 함께 병합할 수 있습니다. 예를 들어 일부 데이터는 미국에 있고 일부는 EU에 있습니다. 어떤 이유로 인해 데이터를 혼합할 수 없습니다. 먼저 별도의 모델을 훈련한 다음 가중치를 병합하고 마지막으로 병합된 데이터 세트로 일반화할 수 있습니다.
따라서 사전 훈련이나 미세 조정 없이 훈련된 모델을 혼합할 수 있습니다. 저자는 연합 학습, 분산 학습, 딥 러닝 최적화 등의 분야에 적용될 수 있는 선형 모드 연결 및 모델 패칭의 향후 개발 방향에 관심이 있다고 밝혔습니다.
마지막으로 3.2장의 가중치 일치 알고리즘은 실행하는 데 약 10초밖에 걸리지 않아 시간이 많이 절약된다고 언급합니다. 논문의 3장에서는 모델 A와 모델 B 유닛을 매칭하는 세 가지 방법을 소개합니다. 매칭 알고리즘이 확실하지 않은 친구들은 원본 논문을 확인해 보세요.
네티즌 댓글 및 저자 질문
이 논문은 트위터에서 열띤 토론을 촉발시켰고, PyTorch 공동 창립자인 Soumith Chintala는 이 연구가 더 큰 환경으로 옮겨질 수 있다면 달성할 수 있는 방향이 더 훌륭할 것이라고 말했습니다. . 두 모델(가중치 포함)을 병합하면 ML 모델 개발이 확장될 수 있으며 모델의 오픈 소스 공동 개발에 큰 역할을 할 수 있습니다.
다른 사람들은 순열 불변이 대부분의 등가성을 효율적으로 포착할 수 있다면 신경망에 대한 이론적 연구에 영감을 줄 것이라고 믿습니다.
논문의 제1저자이자 워싱턴 대학의 박사 학위인 Samuel Ainsworth도 네티즌들이 제기한 몇 가지 질문에 답변했습니다.
먼저 누군가가 "훈련에서 고유한 유역을 타겟팅하는 방법에 대한 팁이 논문에 있습니까? 순열을 추상화하는 방법이 있다면 훈련이 더 빨라질 수 있습니다."라고 물었습니다.
Ainsworth는 이렇게 대답했습니다. 그는 이것을 생각하지 않았습니다. 그는 정말로 어떻게든 더 빨리 훈련할 수 있기를 희망하지만 지금까지는 그것이 매우 어려운 것으로 입증되었습니다. 문제는 SGD가 본질적으로 로컬 검색이므로 고차 기하학을 활용하는 것이 쉽지 않다는 것입니다. 아마도 분산 교육이 갈 길일 것입니다.
RNN이나 Transformers에도 적용 가능한지 문의하시는 분들도 계시죠? Ainsworth는 이것이 원칙적으로는 작동하지만 아직 실험해 본 적은 없다고 말했습니다. 시간이 모든 것을 증명할 것입니다. ㅋㅋㅋ 그 자신은 DDPM에 대해 잘 알지 못하지만 이를 분산 교육에 사용하면 매우 흥미로울 것이라고 퉁명스럽게 말했습니다.
위 내용은 장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

Binance는 Global Digital Asset Trading Ecosystem의 대 군주이며, 그 특성에는 다음이 포함됩니다. 1. 평균 일일 거래량은 1,500 억 달러를 초과하여 주류 통화의 98%를 차지하며 500 개의 거래 쌍을 지원합니다. 2. 혁신 매트릭스는 파생 상품 시장, Web3 레이아웃 및 교육 시스템을 포함합니다. 3. 기술적 이점은 밀리 초에 일치하는 엔진이며, 최고 처리량은 초당 140 만 건의 트랜잭션입니다. 4. 규정 준수 진행 상황은 15 개국 라이센스를 보유하고 있으며 유럽과 미국에 준수 엔티티를 설립합니다.

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.
