컴퓨터가 인간의 언어를 이해하도록 만드는 것은 인공지능 분야에서 언제나 극복할 수 없는 어려움이었습니다.
초기 자연어 처리 모델은 일반적으로 인위적으로 설계된 기능을 사용했기 때문에 전문 언어학자가 수동으로 패턴을 작성해야 했지만 최종 결과는 이상적이지 않았고 AI 연구도 추운 겨울에 빠졌습니다.
언어학자를 해고할 때마다 음성 인식 시스템이 더욱 정확해집니다.
언어학자를 해고할 때마다 음성 인식기의 성능이 올라갑니다.
——Frederick Jelinek
통계 모델과 대규모 사전 학습 모델을 사용하면 특징 추출이 더 이상 필요하지 않지만 여전히 필요합니다. 데이터 주석을 위한 작업을 지정하는데 가장 중요한 문제는 훈련된 모델이 여전히 인간의 언어를 이해하지 못한다는 것입니다.
그렇다면 언어의 원형부터 다시 공부해야 할까요? 인간은 어떻게 언어 능력을 얻었을까요?
최근 코넬 대학교, MIT, 맥길 대학교의 연구자들은 인간 언어의 가장 기본적인 부분, 즉 어휘 음소에서 모델의 알고리즘 합성을 위한 프레임워크를 제안하는 논문을 Nature Communications에 발표했습니다. 언어를 배우고 소리에서 직접 언어의 형태를 구성하는 방법을 가르쳤습니다.
논문 링크: https://www.nature.com/articles/s41467-022-32012-w
형태학과 음운론은 언어학의 한 분야로 주로 형태소(즉, 가장 작은 단위)에 중점을 둡니다. 의미) 단어로 결합될 때 발생하는 소리 변화는 언어 음소의 규칙적인 소리 변화를 예측하기 위한 일련의 규칙을 제공하려고 합니다.
예를 들어 영어의 복수 형태소는 -s 또는 -es로 표기하지만 [s], [z], [객]의 세 가지 발음이 있습니다. 예를 들어 cats는 /kæts/로 발음되고, dogs는 /dagz/로 발음되고 말은 /hɔrsåz/로 발음됩니다.
인간은 복수 발음을 변환하는 방법을 배울 때 먼저 복수형 접미사가 실제로 형태론에 따라 /z/라는 것을 깨닫고 음운론에 따라 접미사는 무성 자음과 같은 줄기의 음운론에 기반을 둡니다. /s/ 또는 /љz/로 변환하면
다른 언어에도 동일한 음소 어휘 규칙이 있습니다. 연구원들은 58개 언어의 음소 교과서에서 70개의 데이터 세트를 수집했는데, 각 데이터 세트에는 수십에서 수백 개의 단어만 포함되어 있습니다. 단어와 몇 가지 문법적 현상만 포함하고 있기 때문에 자연어에서 문법 구조를 찾는 방법이 유아의 언어 학습 과정을 시뮬레이션할 수도 있다는 것이 실험을 통해 나타났습니다.
이러한 언어 데이터 세트에 대해 계층적 베이지안 추론을 수행함으로써 연구원들은 모델이 단 하나 또는 몇 개의 예에서 새로운 형태소 규칙을 획득할 수 있고 일반적인 교차 언어 패턴을 추출하여 이를 인간이 이해할 수 있는 간결한 형식으로 표현할 수 있음을 발견했습니다. 형태.
인간의 지능은 주로 인지세계의 이론을 정립하는 능력에 반영된다. 예를 들어 자연어가 형성된 후 언어학자들은 아이들에게 도움이 되는 일련의 규칙을 정리했다. 특정 언어를 더 빨리 배울 수 있지만 현재 AI 모델은 규칙을 요약하고 다른 사람이 이해할 수 있는 이론적 프레임워크를 형성할 수 없습니다.
모델을 구축하기 전에 '단어를 설명하는 방법'이라는 핵심 문제를 해결해야 합니다. 예를 들어 단어 학습 과정에는 단어의 개념, 의도, 사용법, 발음 및 의미를 이해하는 것이 포함됩니다.
어휘를 구축할 때 연구자들은 각 단어를 쌍으로 표현했습니다. 예를 들어 open은 εn/, [stem: OPEN]>, 과거 시제는 /, [tense: PAST]>, 결합된 open은 εnd/, [stem: OPEN, [tense: PAST]]>
로 표현했습니다.데이터 세트를 확보한 후 연구원들은 단어 변경을 설명하기 위해 최대 사후 확률 추론을 통해 쌍 세트에 대한 문법 규칙 생성을 설명하는 모델을 구축했습니다.
소리의 표현에 있어서 음소(원자음)는 비음인 /m/, /n/과 같은 이진 특징의 벡터로 표현되고, 이 특징 공간을 기반으로 음성 규칙이 정의됩니다. .
연구원들은 영어의 소리 패턴 표현에 널리 사용되는 고전적인 규칙 표현 방법, 즉 SPE 스타일 규칙이라고도 하는 상황 종속 메모리를 사용합니다.
(focus)→(structural_change)/(left_trigger)_(right_trigger)입니다. 즉, 왼쪽/오른쪽 트리거 환경이 포커스의 왼쪽/오른쪽에 가까우면 초점 음소는 변환 구조에 따라 변경됩니다.
트리거 환경은 기능의 연결(음소 집합을 나타냄)을 지정합니다. 예를 들어 영어의 경우 왼쪽 음소가 [-sonorant]인 한 단어 끝에 있는 발음은 다음과 같습니다. /d/에서 /t/로 변경하면 표기 규칙은 [-sonorant] → [-voice]/[-voice -sonorant]_#입니다. 예를 들어 걷기에 이 규칙을 적용하면 발음이 /wɔkd/로 변환됩니다. /wɔkt/로.
이러한 규칙이 자체 출력에 주기적으로 적용되지 않도록 제한되는 경우 규칙과 어휘는 양방향 유리 함수에 해당하고 이는 다시 유한 상태 변환에 해당합니다. 유한 상태 변환기의 공간은 형태음성학에서 알려진 경험적 현상을 포괄할 만큼 표현력이 풍부하며 음성 이론의 실제 사용에 대한 설명력에 대한 한계를 나타낸다고 주장되어 왔습니다.
이 문법을 배우기 위해 연구진은 베이지안 프로그램 학습(BPL) 방법을 채택했습니다. 각 문법 규칙 T를 문제 공간의 도메인별 제약 조건을 포착하는 프로그래밍 언어의 프로그램으로 모델링합니다. 모든 언어에 공통되는 언어 구조를 보편적 문법이라고 합니다. 이 접근법은 언어학의 오랜 접근법의 현대적 사례로 볼 수 있으며 인간이 이해할 수 있는 생성 표현을 사용하여 보편적 문법을 공식화합니다.
BPL이 해결해야 할 문제를 정의한 후 모든 프로그램의 검색 공간은 무한하고 이 문제를 해결하는 방법에 대한 지침을 제공하지 않으며 경사하강법이나 마르코프 체인 몬테 카를로와 같은 방법이 부족합니다. 이러한 로컬 최적화 알고리즘이 활용하는 로컬 정상성의 문제를 해결하기 위해 연구자들은 제약 조건 기반 프로그램 합성 전략을 채택하여 최적화 문제를 조합 제약 조건 만족 문제로 변환하고 SAT(Boolean Satisfiability) 솔버를 사용하여 해결했습니다.
이러한 솔버는 철저하지만 상대적으로 효율적인 검색을 구현하고 충분한 시간이 주어지면 최적의 솔루션을 찾을 수 있도록 보장합니다. 일부 데이터와 일치하는 가장 작은 문법은 Sketch 절차적 합성기를 사용하여 해결할 수 있지만 문법 크기의 상한을 준수해야 합니다.
그러나 실제로 SAT 솔버가 사용하는 철저한 검색 기술은 대규모 말뭉치를 해석하는 데 필요한 엄청난 양의 규칙으로 확장할 수 없습니다.
솔버를 크고 복잡한 이론으로 확장하기 위해 연구원들은 아이들이 언어를 습득하고 과학자들이 이론을 구축하는 근본적인 특징에서 영감을 얻었습니다.
아이들은 하루아침에 언어를 배우는 것이 아니라 언어 발달의 중간 단계를 통해 점차적으로 문법과 어휘에 대한 이해를 풍부하게 합니다. 마찬가지로, 복잡한 과학 이론은 단순한 개념적 핵심으로 시작하여 점점 더 많은 언어 현상을 포함하도록 점차 발전할 수 있습니다.
위 아이디어를 바탕으로 연구원들은 작은 프로그램에서 시작하여 SAT 솔버를 반복적으로 사용하여 작은 수정 지점을 찾아 점점 더 많은 데이터를 설명할 수 있는 프로그램 합성 알고리즘을 설계했습니다. 특히, 현재 이론에 대한 반례를 찾은 다음 솔버를 사용하여 이 반례를 수용할 수 있는 이론에 대한 모든 작은 수정의 공간을 철저하게 탐색합니다.
그러나 이 휴리스틱 방법은 SAT 솔버의 무결성 보장이 부족합니다. 완전하고 정확한 SAT 솔버를 반복적으로 호출하더라도 최적의 솔루션을 찾는 것을 보장하지는 않지만 각 반복 호출은 전체 SAT 솔버를 직접 호출하는 것보다 낫습니다. 최적화하기가 훨씬 어렵습니다. 각각의 새로운 이론을 이론 공간에서 이전 이론에 가깝게 제한하면 제약 조건 만족 문제가 다항식으로 축소되어 검색 시간이 기하급수적으로 길어지고 최악의 경우 SAT 솔버가 기하급수적으로 빨라지기 때문입니다.
실험 평가 단계에서 연구자들은 언어학 교과서에서 70개의 질문을 수집했는데, 각 질문에는 자연어의 일부 이론 형태에 대한 포괄적인 분석이 필요했습니다. 문제의 난이도는 다양하며 다양한 자연어 현상을 다루고 있습니다.
자연어도 다양합니다. 예를 들어 Kerewe(탄자니아의 반투어)에서 세는 것은 /kubala/이지만, 악센트가 높은 음조를 표시하는 /kukíbála/입니다. .
모음 조화를 이루는 언어도 있습니다. 예를 들어 터키에는 각각 손과 종을 나타내는 /el/과 /t∫an/, 그리고 /el-ler/와 /t∫an-lar/가 있습니다. 각각 손과 종의 복수형 및 동화 및 확장형과 같은 기타 여러 언어 현상을 나타냅니다.
평가에서는 먼저 올바른 어휘를 찾는 모델의 능력을 측정합니다. 실제 어휘와 비교하여 모델은 벤치마크의 60%에서 질문의 전체 어휘와 정확하게 일치하는 문법을 찾았고, 질문의 79%에서 어휘의 많은 부분을 올바르게 해석했습니다.
각 문제에 대한 올바른 어휘는 올바른 규칙보다 더 구체적인 경우가 많으며, 올바른 어휘에서 완전한 데이터를 생성하는 규칙은 모델이 제안할 수 있는 기본 규칙과 관찰상 동일해야 합니다. 따라서 기본 진리 어휘집과의 일관성은 동기화된 규칙이 데이터에서 올바르게 작동하는지 여부를 측정하는 측정 기준으로 사용해야 하며, 이 평가는 규칙의 품질과 관련됩니다.
이 가설을 테스트하기 위해 연구원들은 무작위로 15개의 질문을 선택하고 전문 언어학자와 상담하여 발견된 규칙의 점수를 매겼습니다. 재현율(올바르게 복구된 실제 음성 규칙의 비율)과 정밀도(실제로 발생한 복구된 규칙의 비율)를 동시에 측정했습니다. 정밀도와 재현율 지표에서는 규칙의 정확성이 어휘의 정확성과 양의 상관관계가 있음을 알 수 있습니다.
시스템이 모든 어휘를 정확하게 얻으면 관련 없는 규칙을 거의 도입하지 않고(높은 정밀도) 거의 항상 올바른 규칙을 모두 얻습니다(높은 재현율).
위 내용은 언어학자들이 돌아왔습니다! '발음'부터 학습 시작: 이번에는 AI 모델이 스스로 학습해야 합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!