Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.-일체 포함-php.cn

논문 개요

1000개 언어 웹 텍스트 데이터세트 만들기

추가 실험 및 메모

집

기술 주변기기

일체 포함

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 03:21 PM

Google 모델 번역하다

지난 10년 동안 학술 및 상업용 기계 번역 시스템(MT)의 품질이 크게 향상되었습니다. 이러한 개선은 주로 기계 학습의 발전과 대규모 웹 마이닝 데이터 세트의 가용성에 기인합니다. 동시에 딥러닝(DL)과 E2E 모델의 출현, 웹 마이닝을 통해 얻은 대규모 병렬 단일 언어 데이터 세트, 역번역, 자가 학습 등의 데이터 강화 방법, 대규모 다중 언어 데이터 세트 등이 등장합니다. 언어 모델링을 통해 100개 이상의 언어에 대한 고품질 기계 번역 시스템을 지원할 수 있게 되었습니다.

그러나 저자원 기계 번역의 엄청난 발전에도 불구하고 광범위하게 사용 가능한 일반 기계 번역 시스템이 구축된 언어는 약 100개로 제한되어 있으며 이는 분명히 7000개가 넘는 언어 중 오늘은 전 세계에서 작은 부분을 이야기합니다. 제한된 언어 수에 더해 현재 기계 번역 시스템이 지원하는 언어 분포도 유럽 언어 쪽으로 크게 기울어져 있습니다.

인구가 많음에도 불구하고 아프리카, 남아시아 및 동남아시아에서 사용되는 언어, 아메리카 원주민 언어와 관련된 서비스가 적은 것을 알 수 있습니다. 예를 들어 Google 번역은 프리지아어, 몰타어, 아이슬란드어, 코르시카어를 지원하며 이들 언어 모두 원어민이 100만 명 미만입니다. 이에 비해 Google 번역이 제공되지 않는 비하르 방언 인구는 약 5,100만 명, 오로모어 인구는 약 2,400만 명, 케추아어 인구는 약 900만 명, 티그리냐어 인구는 약 900만 명입니다(2022년 기준). 이러한 언어를 '롱테일' 언어라고 하는데, 데이터가 부족하기 때문에 충분한 훈련 데이터를 가지고 언어를 넘어 일반화할 수 있는 머신러닝 기술의 적용이 필요합니다.

이러한 롱테일 언어에 대한 기계 번역 시스템을 구축하는 것은 사용 가능한 디지털 데이터 세트와 언어 식별(LangID) 모델과 같은 NLP 도구가 부족하여 크게 제한됩니다. 이는 리소스가 많은 언어에 널리 사용됩니다.

최근 Google 논문 "다음 천 개 언어를 위한 기계 번역 시스템 구축"에서 20명 이상의 연구원이 1,000개 이상의 언어를 지원하는 실용적인 기계 번역 시스템을 구축하려는 노력의 결과를 시연했습니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

논문 주소: https://arxiv.org/pdf/2205.03983.pdf

특히, 연구자들은 다음 세 가지 연구 분야의 결과를 설명했습니다.

먼저, 언어 인식 및 데이터 기반 필터링 기술을 위한 준지도 사전 학습을 통해 1500개 이상의 언어에 대한 깔끔한 웹 마이닝 데이터 세트를 만듭니다.

두 번째, 100개 이상의 고자원 언어에 대한 감독 병렬 데이터와 1000개 이상의 기타 언어에 대한 단일 언어 데이터세트로 훈련된 대규모 다국어 모델을 사용하여 서비스가 부족한 언어를 위한 새로운 모델을 만듭니다. 실용적이고 효과적인 기계 번역 모델.

셋째, 이러한 언어에 대한 평가 지표의 한계를 연구하고 해당 모델의 몇 가지 일반적인 오류 패턴에 초점을 맞춰 기계 번역 모델의 출력에 대한 정성 분석을 수행합니다.

이 작업이 현재 연구가 부족한 언어에 대한 기계 번역 시스템을 구축하는 실무자에게 유용한 통찰력을 제공할 수 있기를 바랍니다. 또한 연구진은 이번 연구가 데이터가 희박한 환경에서 대규모 다국어 모델의 약점을 해결하는 연구 방향으로 이어질 수 있기를 바라고 있습니다.

5월 12일 I/O 컨퍼런스에서 Google은 위에서 언급한 비하르어, 오로모어, 케추아어 및 티그리냐어와 같은 일부 틈새 아메리카 원주민 언어를 포함하여 24개의 새로운 언어를 번역 시스템에 추가했다고 발표했습니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

논문 개요

이 작업은 크게 4개의 장으로 구성되어 있으며 각 장의 내용에 대해 간략하게 소개합니다.

1000개 언어 웹 텍스트 데이터세트 만들기

이 장에서는 연구자가 1500개 이상의 언어에 대한 단일 언어 텍스트 데이터세트를 크롤링하는 데 사용하는 방법을 자세히 설명합니다. 이러한 방법은 고정밀 데이터(예: 깨끗한 언어 텍스트의 높은 비율)를 복구하는 데 중점을 두므로 다양한 필터링 방법이 큰 부분을 차지합니다.

일반적으로 연구자들이 사용하는 방법은 다음과 같습니다.

LangID 모델에서 학습 데이터 품질이 낮고 LangID 성능이 낮은 언어를 제거하고 1629개 언어 CLD3 LangID 모델 및 SSLID(반지도 LangID) 모델을 학습합니다.
CLD3 모델의 오류율 언어별로 클러스터링 작업을 수행합니다.
문서 일관성을 사용하여 첫 번째 웹 크롤링을 수행합니다.
백분율 임계값 단어 목록을 사용하여 모든 말뭉치를 필터링합니다. SSLID(Single Supervised LangID)를 사용하여 모든 말뭉치를 필터링합니다.
상대 재현율을 사용하여 이상치 언어를 감지하고 TF-IIF(Term-Frequency-Inverse-Internet-Frequency)를 사용하여 필터링합니다. 이상치 언어를 감지하고 해당 언어에 대한 필터를 수동으로 설계하는 빈도 변칙성 점수
문장 수준에서 모든 말뭉치를 중복 제거합니다.
아래 표 2는 모델 학습에 사용된 단일 언어 데이터의 일부인 저자원 언어(LRL)의 전체 데이터 세트 중 단일 언어 데이터를 보여줍니다. 고자원 언어를 포함한 전체 훈련 세트의 데이터 통계입니다.

챕터 디렉터리는 다음과 같습니다. Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

롱테일 언어용 기계 번역 모델 구축 Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

웹에서 마이닝한 단일 언어 데이터의 경우 다음 과제는 학습하는 것입니다. 제한된 수의 단일 언어를 사용하여 데이터로부터 고품질의 범용 기계 번역 모델을 만듭니다. 이를 위해 연구진은 단일 언어 데이터만 사용 가능한 롱테일 언어의 품질을 향상시키기 위해 자원이 많은 언어에서 사용 가능한 모든 병렬 데이터를 활용하는 실용적인 접근 방식을 채택했습니다. 롱테일 언어에 대한 직접적인 감독이 없기 때문에 그들은 이 설정을 "제로 리소스"라고 부릅니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다. 연구원들은 롱테일 언어의 자원 제로 번역 품질을 향상시키기 위해 지난 몇 년 동안 기계 번역용으로 개발된 여러 기술을 사용합니다. 이러한 기술에는 단일 언어 데이터의 자가 지도 학습, 대규모 다국어 지도 학습, 대규모 역번역 및 자가 훈련, 고용량 모델이 포함됩니다. 그들은 이러한 도구를 활용하여 약 100개 언어를 포괄하는 기존 병렬 말뭉치와 웹에서 구축된 1000개 언어 단일 언어 데이터 세트를 활용하여 1000개 이상의 언어를 번역할 수 있는 기계 번역 모델을 만들었습니다.

구체적으로 연구원들은 먼저 제로 리소스 번역(3.2)에서 15억 및 60억 매개변수 변환기의 성능을 비교하여 고도로 다국어 모델에서 모델 용량의 중요성을 강조한 다음, 자체 감독 언어의 수가 증가하고 있습니다. to 1000은 유사한 언어의 더 많은 단일 언어 데이터를 사용할 수 있게 됨에 따라 대부분의 롱테일 언어에 대한 성능이 향상됨을 보여줍니다(3.3). 연구원의 1000개 언어 모델은 합리적인 성능을 보여 주었지만 접근 방식의 강점과 한계를 이해하기 위해 대규모 데이터 확대를 통합했습니다.

또한 연구원들은 자가 학습 및 역번역(3.4)을 통해 대량의 합성 데이터가 포함된 30개 언어의 하위 집합에 대한 생성 모델을 미세 조정했습니다. 또한 환각 및 잘못된 언어 번역에 대한 미세 조정 모델의 견고성을 향상시키기 위해 합성 데이터를 필터링하는 실용적인 방법을 설명합니다(3.5).

연구원들은 또한 시퀀스 수준 증류를 사용하여 이러한 모델을 더 작고 추론하기 쉬운 아키텍처로 개선하고 교사 모델과 학생 모델 간의 성능 격차를 강조했습니다(3.6).

장 목차는 다음과 같습니다.

평가

연구원들은 기계 번역 모델을 평가하기 위해 먼저 영어 문장을 이들 언어로 번역하고 38개 언어에 대한 모델을 구축했습니다. 선택된 롱테일 언어. 평가 세트(4.1). 롱테일 설정에서 BLEU의 한계를 강조하고 CHRF(4.2)를 사용하여 이러한 언어를 평가합니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다. 또한 연구원들은 참조 세트를 사용할 수 없는 언어에 대한 모델의 품질을 이해하기 위해 왕복 번역을 기반으로 한 대략적인 참조 없는 메트릭을 제안하고 이 메트릭으로 측정된 모델을 보고했습니다(. 4.3). 그들은 28개 언어의 하위 집합에 대해 모델에 대한 인간 평가를 수행하고 결과를 보고하여 논문(4.4)에 설명된 접근 방식에 따라 유용한 기계 번역 시스템을 구축할 수 있음을 확인했습니다.

대규모 다국어 제로 리소스 모델의 약점을 이해하기 위해 연구자들은 여러 언어에 대한 정성적 오류 분석을 실시했습니다. 모델은 "호랑이"가 "작은 악어"(4.5)가 되는 등 분포가 유사한 단어와 개념을 혼동하는 경우가 많은 것으로 나타났습니다. 그리고 낮은 리소스 설정(4.6)에서는 모델의 토큰 번역 능력이 덜 자주 나타나는 토큰에서 감소합니다.

연구원들은 또한 이러한 모델이 짧은 또는 단일 단어 입력(4.7)을 정확하게 번역하지 못하는 경우가 많다는 사실을 발견했습니다. 정제된 모델에 대한 연구에 따르면 모든 모델은 훈련 데이터에 존재하는 편향이나 노이즈를 증폭시킬 가능성이 더 높습니다(4.8).

챕터 목차는 다음과 같습니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

추가 실험 및 메모

연구원들은 위 모델에 대해 몇 가지 추가 실험을 수행한 결과 일반적으로 유사한 언어 간에 직접 번역할 때 더 나은 성능을 보이는 것으로 나타났습니다. , 영어를 피벗으로 사용하지 않고(5.1), 서로 다른 스크립트 간의 제로샷 음역에 사용할 수 있습니다(5.2).

번역 품질을 향상시키는 데 사용할 수 있는 "마침표 트릭"이라고 하는 모든 입력에 터미널 구두점을 추가하는 실용적인 트릭을 설명합니다(5.3).

또한 이러한 모델이 모든 언어가 아닌 일부 언어(5.4)에서 비표준 유니코드 문자 모양을 사용하는 데 강력하다는 것을 보여주고 여러 가지 비 유니코드 글꼴(5.5)을 탐색합니다.

장 목차는 다음과 같습니다.

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

자세한 연구 내용은 원문을 참조하시기 바랍니다.

위 내용은 Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7552

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

See all articles

Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.

논문 개요

1000개 언어 웹 텍스트 데이터세트 만들기

추가 실험 및 메모

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제