Amazon 클라우드 컴퓨팅 인공 지능 연구소의 연구원들은 최근 웹에 기계 번역으로 생성된 콘텐츠가 상당히 많고, 이러한 번역의 여러 언어에 대한 품질이 일반적으로 낮다는 사실을 발견했습니다. 연구팀은 대규모 언어 모델을 훈련할 때 데이터 품질과 출처의 중요성을 강조했습니다. 이 결과는 고품질 언어 모델을 구축할 때 데이터 품질과 소스 선택에 더 많은 주의를 기울여야 함을 강조합니다.
연구에 따르면 기계 생성 콘텐츠는 자원이 적은 언어 번역에서 널리 퍼져 있으며 웹 콘텐츠의 큰 부분을 차지합니다.
이 사이트에서는 연구팀이 기계 번역 콘텐츠의 특성을 더 잘 이해하기 위해 MWccMatrix라는 거대한 리소스를 개발했다는 사실을 알아냈습니다. 이 리소스에는 90개 언어를 포괄하는 64억 개의 고유 문장이 포함되어 있으며 번역 튜플이라고 알려진 서로 번역되는 문장 조합을 제공합니다.
이 연구에서는 많은 양의 웹 콘텐츠가 종종 기계 번역을 통해 여러 언어로 번역된다는 사실을 발견했습니다. 이러한 현상은 리소스가 적은 언어의 번역에서 널리 퍼져 있으며 이러한 언어의 웹 콘텐츠의 상당 부분을 차지합니다.
연구원들은 또한 광고 수익과 같은 목적으로 여러 언어로 번역되는 콘텐츠에서 선택성 편향을 발견했습니다.
제 연구를 바탕으로 저는 다음과 같은 결론에 도달했습니다. “기계 번역 기술은 지난 10년 동안 상당한 발전을 이루었지만 지난 수년 동안 사람들은 당시 사용 가능한 기계를 여전히 인간의 품질 수준에 도달할 수 없었습니다. 콘텐츠를 번역하는 번역 시스템이 웹에 추가되므로 웹에서 기계 번역된 콘텐츠의 대부분은 상대적으로 낮을 가능성이 높으며 현대 표준을 충족하지 못할 수 있습니다. 이는 LLM 모델에서 더 많은 '환각'을 초래할 수 있습니다. , 선택 편향은 기계 번역 오류도 고려되지 않음을 나타냅니다. LLM 교육의 경우 데이터 품질이 중요하며 서적 및 Wikipedia 기사와 같은 고품질 말뭉치는 일반적으로 여러 업샘플링이 필요합니다. .”
위 내용은 연구: 인터넷은 낮은 품질의 기계 번역 콘텐츠로 가득 차 있으며 대규모 언어 모델 교육은 데이터 트랩을 조심해야 합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!