> 기술 주변기기 > 일체 포함 > 메타의 언어 번역에 대한 대규모 연구, 결과는 모두 '일상적'입니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 '일상적'입니다.

WBOY
풀어 주다: 2023-04-11 23:46:04
앞으로
1851명이 탐색했습니다.

올해 7월 초, Meta AI는 NLLB(No Language Left Behind)라는 새로운 번역 모델을 출시했습니다. 이를 말 그대로 "No Language left Behind"로 번역할 수 있습니다.

이름에서 알 수 있듯이 NLLB는 200개 이상의 언어 간 번역을 지원할 수 있으며 Meta AI도 이를 오픈 소스로 만들었습니다. 루간다어, 우르두어 등 이전에 본 적 없는 언어를 번역할 수 있습니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

  • 논문 주소: https://research.facebook.com/publications/no-언어-left-behind/
  • 오픈 소스 주소: https://github. com /facebookresearch/fairseq/tree/nllb

그러나 최근 이 연구에 의문이 제기되었습니다. 일부 사람들은 NLLB에서 Meta AI가 제기한 많은 주장이 근거가 없고 오해의 소지가 있으며 평가 결과가 심각하다고 생각합니다. 결과. 또한 회의론자들은 Meta AI의 평가 방법론을 기반으로 보고한 것보다 더 높은 수치를 얻는 것이 쉬울 것이라고 말합니다.

회의론자는 번역 기술에 능통한 자연어 처리 연구 과학자 벤저민 마리입니다. 그가 질문한 내용은 spBLEU와 BLEU를 나란히 비교하는 Meta AI로 요약할 수 있습니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

이 질문과 관련하여 일부 연구자들은 텍스트에 공백(태국어 등)이 없는 경우 spBLEU는 합리적인 측정항목이라고 말했습니다. 그러나 spBLEU와 BLEU를 비교하는 것은 확실히 잘못된 것입니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

네티즌 Arle Lommel은 Benjamin Marie에게 다음과 같이 답했습니다. 이것은 좋은 지적입니다. 이는 또한 머신러닝 연구에 있어서 확인이 부족한 연구에 대해 매우 조심해야 한다는 점을 가르쳐 주었습니다. 여기서 찾은 내용은 사람들이 분수 생성 방법을 제어하지 않고 분수만 참조하면 문제가 복잡해진다는 것을 암시합니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

논문 저자 중 한 명인 Vedanuj Goswami는 다음과 같이 말했습니다. "우리는 BLEU 점수를 다른 토크나이저와 비교할 수 없다는 저자의 의견에 100% 동의합니다. 그러나 저자의 주요 주장은 큰 문제가 있다는 것입니다. 우리 논문에서 대부분의 결과가 비교할 수 없다는 것은 사실이 아닙니다.

우리 논문에서 표 30과 표 31은 spBLEU 평가에 동일한 토크나이저(FLORES-101 spm 토크나이저)를 사용하지만 특별히 FLORES -200을 사용하지는 않습니다. spm 토크나이저는 표 30의 제목과 섹션 8.3.1에서 자세히 설명합니다. 마찬가지로 표 35, 36, 37, 38은 모두 우리 문서에 대해 유사한 측정항목/토크나이저를 사용합니다. 현재의 기계번역 평가 방식은 완벽하지 않고, 논문마다 방법이 다릅니다. "

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다. 아래에서 벤자민 마리가 의심한 구체적인 내용을 소개합니다. :​

평가 방법에 결함이 있습니다

먼저 간단하게 비유해 보겠습니다.

Paul은 바나나 25개, Bill은 토마토 30개를 가지고 있습니다. Bill이 Paul보다 바나나를 5개 더 많이 가지고 있다고 생각하시나요?

BLEU는 바나나 같고, spBLEU는 토마토 같아요. Paul을 이전 작업으로 바꾸고 Bill을 NLLB로 바꿉니다. 이제 다음과 같이 작성할 수 있습니다.

이전 작업은 25 BLEU에서 수행되었으며 NLLB는 30 spBLEU에서 수행되었습니다. NLLB가 전작보다 BLEU 포인트가 5점 더 낫다고 할까요?

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

위의 비유로 아래 소개하는 내용을 이해하시면 더 쉬울 것 같습니다.

이전 Meta AI에서는 NLLB를 종합적으로 설명하고 평가한 논문을 발표했습니다. 논문 초록에서 그들은 이 모델이 이전 SOTA 방법에 비해 44% BLEU 개선을 달성했다고 주장합니다. 즉, NLLB는 이전 연구보다 더 좋은 결과를 낳을 것이다.

BLEU와 관련하여 기계 번역 연구 역사상 BLEU가 이전 SOTA 기술에 비해 44% 향상되는 경우는 드뭅니다. 따라서 논문에 있는 이 간단한 문장은 과학적 진보를 나타냅니다. 일부 언론은 이 발언을 직접 보도하며 추가 검증 없이 메타AI를 언어 기계 번역의 상위권에 위치시켰다. ​

Meta AI가 이러한 대규모 기술 연구를 출판하기로 결정했다면 매우 신뢰할 수 있는 과학적 증거를 제공해야 합니다. 그렇지 않으면 아무런 증거도 없이 남들보다 더 잘한다는 Meta AI의 주장은 다른 연구 기관들이 해왔고 지금도 하고 있는 매우 힘든 일을 약화시킬 뿐입니다.

Marie NLLB 오류 문제를 설명하기 위해 그는 Meta AI가 자체 결과에 의해 어떻게 오도될 수 있는지 보여주려고 합니다. Marie는 NLLB의 간단한 예와 자신이 찾은 유사한 예를 사용하여 NLLB의 결함 있는 평가 방법을 사용할 때 SOTA를 뛰어 넘는 것이 얼마나 쉬운지 보여줍니다. 마지막으로 Marie는 평가의 주요 오류를 식별하고 구체적으로 설명합니다. ​

Meta AI는 자신의 모델을 20개 이상의 이전 연구 데이터와 비교한 결과 NLLB가 이전 연구를 크게 능가한다는 결론을 내렸습니다. 이렇게 많은 수의 비교를 가능하게 하기 위해 주로 BLEU 및 spBLEU와 같은 기계 번역 평가를 위한 자동화된 평가 지표를 사용합니다. ​

BLEU는 결함에도 불구하고 기계 번역에서 매우 인기가 높습니다.

예를 들어 Google 번역을 사용하여 FLORES101 데이터세트의 다음 프랑스어 텍스트를 영어로 번역하려고 합니다. 프랑스어를 사용하는 경우 문법 오류, 일관성 없는 용어, 자연스럽게 읽히지 않는 번역 품질이 매우 좋지 않다는 것을 알게 될 것입니다. 실제로 데이터 세트가 영어로 생성되었기 때문에 Meta AI는 영어로 번역할 때 기계 번역만 평가합니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

이 참조 번역에도 Google 번역의 토큰이 몇 개 있는지 계산하여 참조 번역과 비교할 수 있습니다. 여기서 토큰은 공백으로 구분된 일련의 문자로 정의됩니다. 주황색은 아래 참조 번역에 나타나는 위 Google 번역의 모든 토큰 시퀀스를 강조 표시합니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

일치하는 모든 토큰만 고려하면 BLEU 점수는 50.8 BLEU로 계산될 수 있습니다. 이 점수만으로는 아무 의미가 없으며 다른 BLEU 점수와 비교할 때만 의미가 있습니다.

여기서 이해해야 할 핵심은 점수가 대부분의 기계 번역 연구에서 무시되는 토큰을 기반으로 계산된다는 것입니다. BLEU 점수는 기본적으로 구두점 앞에 공백을 추가하는 방식으로 자체 내부 토큰화를 수행하는 SacreBLEU를 사용하여 계산됩니다. 이는 BLEU 점수를 계산하는 가장 안정적이고 반복 가능한 방법 중 하나입니다. Meta AI는 spBLEU를 사용합니다.

그럼 spBLEU란 무엇일까요? BLEU이지만 다른 토큰화를 사용합니다. Google 번역 및 참고 번역을 다음과 같이 토큰화합니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

spBLEU와 연결된 토큰은 단어를 더 작은 조각으로 나누어 토큰을 생성합니다(여기서 토큰에 추가되는 것은 중요하지 않습니다. 무시해 보세요). spBLEU 토큰화를 사용한 직접적인 결과는 번역과 참조 모두에 대해 더 많은 토큰을 갖게 된다는 것입니다. 더 많은 토큰이 있으므로 Google 번역이 참조에서 더 많은 토큰과 일치할 것으로 예상할 수 있습니다. 그러면 점수가 늘어날 것입니다. 실제로 여기의 spBLEU 점수는 54.8입니다.

위에서 SacreBLEU 내부 토큰화를 사용해 계산한 BLEU 점수보다 4점 더 높은 점수를 요구하지 않을 수 없겠죠? 그렇다면 번역이 점점 좋아지고 있나요?

분명히 그렇지는 않지만 번역은 동일하게 유지됩니다. BLEU와 spBLEU를 비교하는 것은 전혀 의미가 없습니다. BLEU와 spBLEU는 Google 번역과 참조 번역을 다르게 처리하며 평가 목적으로만 사용됩니다. 실제로는 서로 다른 지표입니다. 동일한 지표라면 이름을 다르게 지정할 필요가 없습니다. 기계 번역 연구 커뮤니티에서 자주 읽고 듣는 것처럼, 다르거나 거의 유사한 토큰에 대해 계산된 BLEU 점수를 사용하여 번역 품질을 비교하는 것은 공정하지 않거나 심지어 불공평합니다. 과학적으로 신뢰할 수 있는 연구가 되려면 정확히 동일한 토큰화를 사용하여 BLEU 점수를 일관되게 계산하면 됩니다. ​

Meta AI는 NLLB가 이전에 발표된 BLEU 점수보다 항상 더 나은 spBLEU 점수를 달성할 수 있기 때문에 이전 연구보다 훨씬 낫다고 주장하지만, 그 반대는 사실입니다. 주어진 번역에 대해 BLEU 점수보다 낮은 spBLEU 점수를 얻는 것은 매우 어려운 작업이기 때문입니다. 더욱 혼란스러운 점은 목표가 가장 높은 점수를 얻는 것이라면 chrBLEU 측정항목을 사용하면 안 된다는 것입니다.

예를 들어 Google 번역 및 참조 번역에서는 각 문자가 토큰이 됩니다(예: 문자 사이에 공백이 추가됨).

그런 다음 chrBLEU 값은 spBLEU보다 20.7포인트 높은 75.5로 계산됩니다. NLLB의 평가에 따르면 이는 원본 Google 번역이 변경되지 않은 상태에서 기계 번역의 새로운 정점이 될 중요한 개선이 될 것입니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

논문 오류의 예​

이제 NLLB 평가의 구체적인 예를 살펴보겠습니다.

Meta AI는 이전에 발표된 수치와 수치를 비교하여 이전 작업보다 뛰어난 성능을 발휘했다고 주장합니다. 본 논문에서는 이전 연구와 비교한 표 30, 31, 32, 35, 36, 37 및 38에서 결론을 도출했습니다.

표 32부터 시작합니다. 이는 발생할 수 있는 다양한 유형의 오류 때문에 가장 예시적인 예 중 하나입니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

표에서 NLLB-200 열을 제외한 모든 숫자는 이전에 출판된 논문 IndicBART 및 IndicTrans에서 직접 복사한 것입니다. 가독성을 위해 Meta AI는 각 언어의 최고 점수를 굵게 표시하고 굵은 열은 해당 시스템이 최고임을 나타냅니다.

표에는 모두에 대한 spBLEU가 표시되어 있는데 이는 오해의 소지가 있습니다. 실제로 all은 NLLB-200만을 의미합니다. IndicBART와 IndicTrans는 spBLEU가 아닌 BLEU를 사용하기 때문입니다. 그러나 비교해 보면 NLLB의 spBLEU 점수가 이전 연구의 BLEU 점수보다 높은 것으로 나타났습니다. 하지만 이것이 NLLB가 더 낫다는 뜻인가요? 바나나 25개보다 토마토 30개가 더 나은가요?

결과를 설명하는 텍스트에서 다음을 볼 수 있습니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

예를 들어 (c) Google 번역, (d) Microsoft 번역. NLLB-200은 대부분의 방향에서 모든 모델보다 성능이 훨씬 뛰어납니다. NLLB-200의 훈련 데이터세트에는 25개의 인도어가 포함되어 있으며 이는 (a)와 (b)에서 다루는 것보다 거의 두 배나 많습니다. 성능 향상은 다국어 전송 증가와 인도어 마이닝 및 역번역을 위한 데이터 품질 향상에 기인합니다.

즉, NLLB에는 이전 연구의 바나나보다 토마토가 더 많습니다. 따라서 NLLB에는 바나나가 더 많습니다.

spBLEU 점수는 더 작고 다른 토큰으로 계산되기 때문에 BLEU 점수보다 높습니다. 그러나 NLLB가 더 잘 번역됩니까? 우리는 단순히 대답할 수 없습니다. 설상가상으로 IndicBART와 IndicTrans는 둘 다 서로 다른 두 가지 토큰 방법을 사용하므로 비교할 수 없습니다.

위에 나열된 대부분의 테이블에는 비슷한 문제가 있으며 다소 오류가 있습니다.

IndicBART와 IndicTrans에서 발표한 논문을 보고 수치를 확인해보면 다른 문제가 있다는 것을 알 수 있습니다. 표 32의 열(a, b)은 모두 교체되었으며 IndicBART 숫자는 indicatrans의 숫자이고 그 반대도 마찬가지입니다.

표 30을 보면 문제는 더욱 크다. 메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.그러나 표 30은 논문에 업데이트되었고, Benjamin Marie는 기사를 업데이트해준 Vedanuj에게 감사의 뜻을 표했습니다. 표 30에서는 토크나이저가 동일하다는 점을 언급하고 있습니다. 내 실수를 인정합니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

표 32에서 볼 수 있듯이 Meta AI는 다양한 계산 방법을 사용하여 얻은 BLEU 점수를 비교하면서 NLLB가 이전 DeltaLM 및 Deepnet보다 성능이 뛰어나다고 주장합니다. 여기서 새로운 점은 NLLB를 spBLEU를 사용하여 평가한 이전 작업인 M2M-100과도 비교했다는 것입니다. 그렇다면 이 비교가 의미가 있을까요? 아니요. 둘 다 spBLEU를 사용하더라도 실제로는 서로 다른 토크나이저를 사용하므로 비교가 불가능합니다. 그들은 각주 28에서 다음과 같은 진술을 합니다:

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

"우리의 분석에 따르면 FLORES-101 언어로 측정했을 때 FLORES-200의 SPM-200과 FLORES-101의 SPM-100이 있습니다. SPM-200의 가장 큰 장점은 200개 이상의 언어를 지원한다는 점입니다.

작은 차이도 차이점입니다. 이 경우 우리는 과학적 연구를 하고 있기 때문에 이러한 차이점이 중요합니다.

M2M-100 작업과 비교하여 NLLB의 한 가지 발전은 모델과 데이터세트에 더 많은 언어를 추가한 것입니다. 여기에는 토큰화 모델이 포함됩니다. 기술적으로 말하면, 어휘 크기를 일정하게 유지하면서 이 토크나이저에 다양한 쓰기 체계를 가진 언어를 더 추가하면 기계적으로 더 작은 토큰으로 어휘를 얻게 됩니다. 위에서 볼 수 있듯이 더 작은 토큰을 사용하면 더 나은 점수를 얻을 수 있습니다. 이것을 확인해 봅시다.

아래 그림과 같이

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

이 토큰화는 95개의 토큰을 생성하는 반면 NLLB는 97개의 토큰을 생성합니다. 이는 미묘한 차이일 뿐이며, M2M-100 토큰화를 사용하여 spBLEU를 계산하면 점수는 53.8로 NLLB 토큰화보다 1점 낮습니다. 기계 번역 연구 문헌에 따르면 일반적으로 1포인트의 차이는 시스템이 훨씬 더 좋다고 주장하기에 충분합니다. 예상대로 NLLB는 M2M-100보다 더 높은 점수를 생성할 것입니다.

다음 테이블은 이 문서의 마지막 테이블인 표 31입니다.

메타의 언어 번역에 대한 대규모 연구, 결과는 모두 일상적입니다.

마찬가지로 위에서 언급한 것과 동일한 문제가 있습니다.

1 M2M-100과 NLLB는 점수를 매기기 위해 두 가지 다른 토큰화를 사용하므로 비교할 수 없습니다. 2. MMTAfrica는 논문에서 M2M-100 토큰화를 사용하는 것으로 보입니다. M2M-100과 비슷하지만 NLLB와는 비교할 수 없습니다.

기사에 아직 궁금한 점이 있어서 여기서는 하나씩 소개하지 않겠습니다. NLLB에서 Meta AI가 저지르는 주요 실수는 기계 번역 평가에서 매우 흔한 실수입니다. 하지만 우리는 이 작업이 정말 놀랍고 많은 언어에 대해 더 높은 번역 품질을 제공할 수 있다는 점을 인정해야 합니다.

위 내용은 메타의 언어 번역에 대한 대규모 연구, 결과는 모두 '일상적'입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿