더 큰 규모의 딥 러닝 모델을 훈련하는 것은 지난 10년 동안 새로운 트렌드가 되었습니다. 아래 그림에서 볼 수 있듯이 모델 매개변수 수가 지속적으로 증가하면 신경망의 성능이 점점 더 좋아지고 새로운 연구 방향도 생성되지만 모델에는 점점 더 많은 문제가 발생합니다.
우선, 이러한 유형의 모델은 액세스가 제한되는 경우가 많고 오픈 소스가 아니거나, 오픈 소스라 하더라도 실행하려면 여전히 많은 컴퓨팅 리소스가 필요합니다. 둘째, 이러한 네트워크 모델의 매개변수는 보편적이지 않으므로 훈련 및 파생에 많은 양의 리소스가 필요합니다. 셋째, 매개변수의 크기가 하드웨어에 의해 제한되기 때문에 모델을 무한정 확장할 수 없습니다. 이러한 문제를 해결하기 위해 효율성 향상에 초점을 맞춘 새로운 연구 동향이 등장하고 있습니다.
최근에는 히브리대학교, 워싱턴대학교 및 기타 기관의 12명 이상의 연구자들이 자연어 처리(NLP) 분야의 효율적인 방법을 요약한 리뷰를 공동으로 작성했습니다.
문서 주소: https://arxiv.org/pdf/2209.00099.pdf
효율성은 일반적으로 시스템에 투입된 자원과 시스템 출력 사이의 관계를 의미합니다. 효율적인 시스템은 자원을 덜 낭비할 수 있습니다. 출력을 생성합니다. NLP 분야에서 우리는 효율성을 모델 비용과 모델이 생성하는 결과 간의 관계로 생각합니다.
식 (1)은 특정 결과를 생성하기 위한 인공 지능 모델의 훈련 비용(Cost)을 설명하며(R)은 세 가지(불완전한) 요소에 비례합니다.
(1) 단일 샘플에서 모델에서 모델을 실행하는 비용(E)
(2) 훈련 데이터 세트의 크기(D)
(3) 모델 선택 또는 매개변수 조정에 필요한 훈련 실행 횟수(H) .
비용 비용(·)은 계산, 시간 또는 환경 비용과 같은 여러 차원을 따라 측정할 수 있으며 각 차원은 다양한 방법으로 추가로 정량화될 수 있습니다. 예를 들어 계산 비용에는 총 부동 소수점 연산(FLOP) 수 또는 모델 매개변수 수가 포함될 수 있습니다. 단일 비용 지표를 사용하는 것은 오해의 소지가 있을 수 있으므로 이 연구에서는 효율적인 NLP의 여러 측면에 대한 작업을 수집 및 구성하고 어떤 측면이 어떤 사용 사례에 유익한지 논의합니다.
본 연구는 NLP 효율성을 향상시키기 위한 다양한 방법에 대한 기본 소개를 제공하는 것을 목표로 하므로 본 연구는 일반적인 NLP 모델 파이프라인(아래 그림 2)에 따라 이번 설문조사를 구성하고 각 단계를 보다 효율적으로 만들기 위한 기존 방법을 소개합니다. .
이 작업은 주로 두 가지 유형의 독자를 대상으로 NLP 연구자에게 실용적인 효율성 가이드를 제공합니다.
(1) NLP의 다양한 분야의 연구자가 자원이 제한된 환경에서 작업할 수 있도록 지원: 자원 병목 현상에 따라 다름 , 독자는 NLP 파이프라인이 다루는 측면으로 직접 이동할 수 있습니다. 예를 들어 주요 제한 사항이 추론 시간인 경우 논문의 6장에서는 관련 효율성 향상에 대해 설명합니다.
(2) NLP 방법의 현재 효율성 상태를 개선하는 데 관심이 있는 연구원. 이 논문은 새로운 연구 방향에 대한 기회를 식별하는 출발점이 될 수 있습니다.
아래 그림 3은 본 연구에서 요약한 효율적인 NLP 방법을 개략적으로 보여줍니다.
또한 하드웨어 선택이 모델의 효율성에 큰 영향을 미치지만 대부분의 NLP 연구원은 하드웨어에 대한 결정을 직접적으로 제어하지 않으며 대부분의 하드웨어 최적화는 NLP 파이프라인의 모든 단계에 적용되지 않습니다. . 효과가있다. 따라서 본 연구에서는 알고리즘에 대한 작업에 중점을 두지만 7장에서는 하드웨어 최적화에 대한 간략한 소개를 제공합니다. 마지막으로, 효율성을 정량화하는 방법, 평가 과정에서 고려해야 할 요소, 가장 적합한 모델을 결정하는 방법에 대해 자세히 논의합니다.
관심 있는 독자는 논문의 원문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.
위 내용은 제한된 리소스로 모델 효율성을 향상시키는 방법은 무엇입니까? 효율적인 NLP 방법을 요약한 기사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!