> 백엔드 개발 > 파이썬 튜토리얼 > DeepSpeed로 훈련하는 동안 텐서 크기가 일치하지 않는 문제

DeepSpeed로 훈련하는 동안 텐서 크기가 일치하지 않는 문제

DDD
풀어 주다: 2024-12-23 18:32:14
원래의
636명이 탐색했습니다.

Issue with mismatched tensor sizes during training with DeepSpeed

현재 DeepSpeed가 통합된** Hugging Face**의 Trainer를 사용하여 모델을 교육하고 있는데 텐서 크기 불일치와 관련된 오류가 발생했습니다. 구체적으로 다음과 같은 오류가 발생합니다.

텐서 a(50)의 크기는 비싱글톤 차원2에서 텐서 b(3)의 크기와 일치해야 합니다.

누군가가 이를 수정하고 버전을 공유해 주셨으면 좋겠습니다!???

내 데이터:

내 설정은 다음과 같습니다.

input_id와 label의 모양이 동일한 것을 확인했습니다. Trainer 구성과 DeepSpeed ​​구성 모두에서 배치 크기를 확인했습니다. 또한 모델이 장치(cuda 또는 CPU)에 올바르게 배치되었는지 확인했습니다.

아마도 잘 모르겠습니다.

위 내용은 DeepSpeed로 훈련하는 동안 텐서 크기가 일치하지 않는 문제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿