목차
네티즌 댓글 및 저자 질문
기술 주변기기 일체 포함 장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

Apr 09, 2023 pm 03:41 PM
ai 모델

딥 러닝이 이러한 성과를 거둘 수 있었던 것은 대규모의 비볼록 최적화 문제를 비교적 쉽게 해결할 수 있는 능력 덕분입니다. 비볼록 최적화는 NP-하드이지만 일반적으로 SGD(확률적 경사하강법)의 변형인 일부 간단한 알고리즘은 실제로 대규모 신경망을 피팅하는 데 놀라운 효율성을 보여주었습니다.

이 기사에서 University of Washington의 여러 학자들은 "Git Re-Basin: Merging Models modulo Permutation Symmetries"를 작성하여 딥 러닝의 고차원 비볼록 최적화 문제에 대한 SGD 알고리즘의 비합리적인 효율성을 연구했습니다. . 그들은 세 가지 질문에서 영감을 얻었습니다:

1. SGD가 고차원 비볼록 딥 러닝 손실 환경의 최적화에서 우수한 성능을 보이는 반면, 정책 학습, 궤적 최적화 및 추천과 같은 기타 비볼록 최적화 설정에서는 견고함을 유지하는 이유 시스템 대폭 감소?

2. 지역 최소값은 어디인가요? 초기화 가중치와 최종 훈련 가중치 사이를 선형 보간할 때 손실이 부드럽고 단조롭게 감소하는 이유는 무엇입니까?

3. 무작위 초기화와 데이터 일괄 처리 순서가 다른 두 개의 독립적으로 훈련된 모델이 거의 동일한 성능을 달성하는 이유는 무엇입니까? 또한 훈련 손실 곡선이 왜 동일하게 보이므로 다양한 훈련이 거의 동일한 성능을 나타냅니까?

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.왜 이런 일이 일어나는 걸까요? 2019년에 Brea 등은 신경망의 숨겨진 단위가 배열 대칭을 가지고 있음을 발견했습니다. 간단히 말해서, 네트워크의 숨겨진 계층에서 두 개의 유닛을 교환할 수 있으며 네트워크 기능은 동일하게 유지됩니다. Entezari et al.(2021)은 이러한 순열 대칭을 통해 손실을 타협하지 않고 가중치 공간의 점을 선형으로 연결할 수 있다고 추측했습니다.

아래에서는 모든 사람이 기사를 더 명확하게 이해할 수 있도록 기사의 주요 목적을 설명하기 위해 기사 작성자 중 한 사람의 예를 사용합니다.

나는 A 모델을 훈련했고 친구는 B 모델을 훈련했다고 가정하면, 두 모델의 훈련 데이터는 다를 수 있습니다. 문제가 되지 않습니다. 이 기사에서 제안한 Git Re-Basin을 사용하면 손실을 손상시키지 않고 가중치 공간에서 두 모델 A+B를 병합할 수 있습니다.

논문의 저자는 Git Re-Basin이 모든 신경망(NN)에 적용될 수 있다고 밝혔습니다. 그들은 처음으로 독립적으로 훈련된(사전 훈련되지 않은) 두 모델 사이를 시연했습니다. (ResNets), 장애물이 없는 선형 연결이 가능합니다.

병합 능력은 SGD 교육의 속성이며, 초기화 시에는 병합이 작동하지 않지만 위상 변화가 발생하므로 시간이 지나면 병합이 가능해짐을 발견했습니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

또한 모델 너비가 병합 가능성과 밀접한 관련이 있다는 사실도 발견했습니다. 즉, 넓을수록 좋습니다.

또한 모든 아키텍처를 병합할 수 있는 것은 아닙니다. VGG는 ResNets보다 병합하기가 더 어려운 것 같습니다. 장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

이 병합 방법에는 또 다른 장점이 있습니다. 분리되고 편향된 데이터 세트에 대해 모델을 훈련한 다음 가중치 공간에서 함께 병합할 수 있습니다. 예를 들어 일부 데이터는 미국에 있고 일부는 EU에 있습니다. 어떤 이유로 인해 데이터를 혼합할 수 없습니다. 먼저 별도의 모델을 훈련한 다음 가중치를 병합하고 마지막으로 병합된 데이터 세트로 일반화할 수 있습니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

따라서 사전 훈련이나 미세 조정 없이 훈련된 모델을 혼합할 수 있습니다. 저자는 연합 학습, 분산 학습, 딥 러닝 최적화 등의 분야에 적용될 수 있는 선형 모드 연결 및 모델 패칭의 향후 개발 방향에 관심이 있다고 밝혔습니다.

마지막으로 3.2장의 가중치 일치 알고리즘은 실행하는 데 약 10초밖에 걸리지 않아 시간이 많이 절약된다고 언급합니다. 논문의 3장에서는 모델 A와 모델 B 유닛을 매칭하는 세 가지 방법을 소개합니다. 매칭 알고리즘이 확실하지 않은 친구들은 원본 논문을 확인해 보세요.

네티즌 댓글 및 저자 질문

이 논문은 트위터에서 열띤 토론을 촉발시켰고, PyTorch 공동 창립자인 Soumith Chintala는 이 연구가 더 큰 환경으로 옮겨질 수 있다면 달성할 수 있는 방향이 더 훌륭할 것이라고 말했습니다. . 두 모델(가중치 포함)을 병합하면 ML 모델 개발이 확장될 수 있으며 모델의 오픈 소스 공동 개발에 큰 역할을 할 수 있습니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

다른 사람들은 순열 불변이 대부분의 등가성을 효율적으로 포착할 수 있다면 신경망에 대한 이론적 연구에 영감을 줄 것이라고 믿습니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

논문의 제1저자이자 워싱턴 대학의 박사 학위인 Samuel Ainsworth도 네티즌들이 제기한 몇 가지 질문에 답변했습니다.

먼저 누군가가 "훈련에서 고유한 유역을 타겟팅하는 방법에 대한 팁이 논문에 있습니까? 순열을 추상화하는 방법이 있다면 훈련이 더 빨라질 수 있습니다."라고 물었습니다.

Ainsworth는 이렇게 대답했습니다. 그는 이것을 생각하지 않았습니다. 그는 정말로 어떻게든 더 빨리 훈련할 수 있기를 희망하지만 지금까지는 그것이 매우 어려운 것으로 입증되었습니다. 문제는 SGD가 본질적으로 로컬 검색이므로 고차 기하학을 활용하는 것이 쉽지 않다는 것입니다. 아마도 분산 교육이 갈 길일 것입니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

RNN이나 Transformers에도 적용 가능한지 문의하시는 분들도 계시죠? Ainsworth는 이것이 원칙적으로는 작동하지만 아직 실험해 본 적은 없다고 말했습니다. 시간이 모든 것을 증명할 것입니다. ㅋㅋㅋ 그 자신은 DDPM에 대해 잘 알지 못하지만 이를 분산 교육에 사용하면 매우 흥미로울 것이라고 퉁명스럽게 말했습니다.

장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.

위 내용은 장애물 없이 두 모델을 병합하면 대규모 ResNet 모델의 선형 연결이 단 몇 초 만에 완료되어 신경망에 대한 새로운 연구에 영감을 줍니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

크로스 체인 거래는 무엇을 의미합니까? 크로스 체인 거래는 무엇입니까? 크로스 체인 거래는 무엇을 의미합니까? 크로스 체인 거래는 무엇입니까? Apr 21, 2025 pm 11:39 PM

크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

Worldcoin (WLD) 가격 예측 2025-2031 : WLD가 2031 년까지 4 달러에 도달 할 것인가? Worldcoin (WLD) 가격 예측 2025-2031 : WLD가 2031 년까지 4 달러에 도달 할 것인가? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

Web3 Trading Platform Ranking_Web3 글로벌 교환 상위 10 개 요약 Web3 Trading Platform Ranking_Web3 글로벌 교환 상위 10 개 요약 Apr 21, 2025 am 10:45 AM

Binance는 Global Digital Asset Trading Ecosystem의 대 군주이며, 그 특성에는 다음이 포함됩니다. 1. 평균 일일 거래량은 1,500 억 달러를 초과하여 주류 통화의 98%를 차지하며 500 개의 거래 쌍을 지원합니다. 2. 혁신 매트릭스는 파생 상품 시장, Web3 레이아웃 및 교육 시스템을 포함합니다. 3. 기술적 이점은 밀리 초에 일치하는 엔진이며, 최고 처리량은 초당 140 만 건의 트랜잭션입니다. 4. 규정 준수 진행 상황은 15 개국 라이센스를 보유하고 있으며 유럽과 미국에 준수 엔티티를 설립합니다.

가상 통화 가격의 상승 또는 하락은 왜입니까? 가상 통화 가격의 상승 또는 하락은 왜입니까? 가상 통화 가격의 상승 또는 하락은 왜입니까? 가상 통화 가격의 상승 또는 하락은 왜입니까? Apr 21, 2025 am 08:57 AM

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

Binance 전체 프로세스 전략에 대한 커널 에어 드롭 보상을받는 방법 Binance 전체 프로세스 전략에 대한 커널 에어 드롭 보상을받는 방법 Apr 21, 2025 pm 01:03 PM

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

통화에서 레버리지 교환 순위 순위 서클 통화 서클에서 상위 10 개의 레버리지 거래소의 최신 권장 사항 통화에서 레버리지 교환 순위 순위 서클 통화 서클에서 상위 10 개의 레버리지 거래소의 최신 권장 사항 Apr 21, 2025 pm 11:24 PM

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다

'Black Monday Sell'은 Cryptocurrency 업계의 힘든 날입니다. 'Black Monday Sell'은 Cryptocurrency 업계의 힘든 날입니다. Apr 21, 2025 pm 02:48 PM

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 쿼럼 수의 사람들에게 도달 한 토큰 재구매를 소개하는 권장 사항입니다. Aavenomics는 AAVE 프로토콜 토큰을 수정하고 쿼럼 수의 사람들에게 도달 한 토큰 재구매를 소개하는 권장 사항입니다. Apr 21, 2025 pm 06:24 PM

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.

See all articles