목차
Microsoft는 NLP 모델을 테스트하기 위한 AdaTest 방법을 개발합니다
테스트 루프로 버그 발견
디버깅 루프를 사용하여 버그 수정
기술 주변기기 일체 포함 NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

Apr 09, 2023 pm 04:11 PM
ai 마이크로소프트 연구

자연어 처리(NLP) 모델은 인간의 음성을 읽고 텍스트를 반대 의미로 해석할 수 없으며 이는 업계의 고질적인 문제입니다. 이제 Microsoft는 이 문제에 대한 솔루션을 개발했다고 밝혔습니다.

Microsoft는 NLP 모델을 테스트하기 위한 AdaTest 방법을 개발합니다

다양한 애플리케이션 기반에 걸쳐 대규모 모델로 사용할 수 있거나, 플랫폼 모델의 발전으로 AI의 자연어 처리 능력이 크게 향상되었습니다. 그러나 자연어 처리(NLP) 모델은 아직 완벽하지 않으며 때로는 당황스러운 방식으로 결함이 노출될 수 있습니다.

예를 들어, 포르투갈어로 "이 요리를 추천하지 않습니다"를 영어로 "이 요리를 적극 권장합니다"로 번역하는 최고 수준의 광고 모델이 있습니다.

NLP 모델에서 버그를 찾아 수정하는 것이 너무 어려워 심각한 버그가 거의 모든 주요 오픈 소스 및 상용 NLP 모델에 영향을 미치기 때문에 이러한 실패가 부분적으로 계속됩니다. 현재 NLP 모델 오류를 찾고 수정하는 방법에는 사용자 중심 또는 자동화의 두 가지 방법이 있습니다.

사용자 중심 접근 방식은 유연하며 NLP 모델 동작의 모든 측면을 테스트할 수 있습니다. 그러나 이 방법은 인간의 극도로 가변적인 상상력과 오류 식별 능력에 의존하고 극도로 노동 집약적이어서 실제로 테스트에 사용할 수 있는 입력 데이터의 양은 매우 적습니다.

반면에 자동 방법은 빠르므로 입력 데이터의 많은 부분을 처리할 수 있습니다. 그러나 인간의 제어가 부족하기 때문에 모델이 약간 변경된 입력 문구를 처리하고 예측이 일관되지 않는 경우와 같이 매우 제한된 상황에서만 모델이 올바른지 그른지를 테스트할 수 있습니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

Microsoft 연구원들은 GPT-3과 같은 최신 LLM(대형 언어 모델)이 업계에 사용자 중심 방법과 자동 방법의 장점을 결합하여 사용자가 테스트 중인 모델을 정의할 수 있는 기회를 제공한다고 믿습니다. 최신 대규모 언어 모델의 생성 기능을 활용하여 모델 동작의 특정 범주에 대한 대규모 테스트를 생성해야 합니다.

Microsoft 연구원들은 이러한 종류의 인간-컴퓨터 통합 경로를 "적응형 테스트 및 버그 제거"(AdaTest로 약칭)라고 부릅니다. AdaTest를 사용하면 대규모 언어 모델에는 테스트 중인 모델의 오류에 대해 많은 수의 테스트를 생성해야 하는 큰 부담이 주어집니다.

사람의 개입은 효과적인 테스트를 선택하고 이를 의미적으로 관련된 주제로 구성하여 언어 모델 생성을 안내합니다. 이러한 인간의 안내는 언어 모델의 생성 성능을 크게 향상시키고 이를 대상 도메인으로 안내합니다.

이러한 테스트는 실제로 레이블이 지정된 데이터 형식이기 때문에 NLP 모델의 오류를 식별할 수 있을 뿐만 아니라 기존 소프트웨어 개발과 유사한 반복 디버깅 주기에서 NLP 모델 오류를 수정하는 데에도 사용할 수 있습니다.

AdaTest는 전문 사용자에게 상당한 효율성 향상을 제공하는 동시에 프로그래밍 배경 지식이 없는 일반 사람들도 효과적으로 사용할 수 있을 만큼 간단합니다. 이는 전문 사용자와 일반 사용자 모두 NLP 모델의 일련의 시나리오에서 동작을 더 잘 이해하고 제어할 수 있음을 의미하며, 이는 AI 시스템의 성능을 향상시킬 뿐만 아니라 AI 시스템이 사용자 요구에 응답하도록 만듭니다. 더 효율적으로.

테스트 루프로 버그 발견

AdaTest 모드는 내부 테스트 루프와 외부 디버깅 루프로 구성됩니다. 전자는 오류를 찾는 데 사용되고 후자는 오류를 수정하는 데 사용됩니다.

이 작업이 간단해 보이지만 시중에 판매되는 SOTA 모델도 실수를 하는 경우가 많습니다. 예를 들어, 일부 SOTA 모델은 이중 부정 문장 "내 인생에서 이보다 나은 시간을 보낸 적이 없다고 생각합니다"를 감정적으로 부정적으로 분류하거나 "나는 소수자입니다"라는 문장을 감정적으로 부정적으로 분류합니다. .

이 두 가지 상황 모두 실제로 시장에 나와 있는 비즈니스 모델에서 발생한 실수입니다. AdaTest가 버그를 찾아 수정할 수 있다는 것을 증명하기 위해 Microsoft 연구팀은 NLP 모델에서 텍스트 공정성 오류를 테스트하고 수정하는 방법을 시연했습니다.

NLP 모델의 텍스트 공정성 오류, 즉 텍스트의 특정 속성 그룹에 대한 중립적 설명은 NLP 모델의 텍스트 감정 분석 기능에 오류를 초래하고 실수로 텍스트의 감정적 가중치를 감소시킬 수 있습니다. 텍스트. 즉, 모델은 특정 그룹에 대한 설명을 더 부정적으로 처리할 수 있습니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

테스트 루프에서 Microsoft 연구원들은 다양한 ID에 대한 일련의 텍스트 단위 테스트로 시작하여 이 테스트 세트를 "민감함"으로 표시했습니다. 이러한 초기 예는 모델의 오류를 드러내지 않았습니다.

그러나 AdaTest 방법은 GPT-3을 사용하여 테스트 개체 모델의 잠재적인 버그를 강조하기 위해 말뭉치와 유사한 다수의 암시 테스트를 생성합니다.

수백 개의 테스트가 생성되더라도 개입 담당자는 오류가 있거나 오류에 가까운 처음 몇 개의 테스트만 검토하면 됩니다. 그런 다음 사람의 개입은 실제로 잘못되지 않은 테스트 결과를 무시하고 다른 유효한 테스트 결과를 현재 주제에 추가하고 때때로 이를 다른 하위 주제로 구성합니다. 수동으로 필터링된 테스트 결과는 다음 언어 모델 프롬프트에 포함됩니다. 입력이 라운드되면 다음 입력 데이터 세트의 처리 결과가 사용자 우려와 모델 오류 사이의 교차점으로 푸시됩니다.

이 내부 테스트 주기를 반복하면 NLP 모델이 오류 없이 시작되고 점점 더 명백한 오류와 버그가 서서히 노출될 수 있습니다. 따라서 사용자가 모델 자체에서 결함을 찾을 수 없더라도 통과한 작은 테스트 세트로 시작한 다음 NLP 모델을 빠르게 반복하여 테스트 중인 모델의 오류를 드러내는 대규모 테스트 배치를 생성할 수 있습니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

내부 테스트 루프의 예 테스터가 텍스트 감정 분석이라는 주제를 사용하지 않고, 부정 문장 처리, 이중 부정 문장 처리 등 다른 주제를 대상으로 하는 경우 테스터는 다른 결함을 발견하게 됩니다.

예를 들어, "나는 지금보다 더 행복했던 적이 없습니다"와 같은 간단한 진술은 비즈니스 모델에 따라 긍정적인 것으로 올바르게 분류될 수 있습니다. 그러나 AdaTest 방법을 사용하면 "이보다 더 좋은 도시를 본 적이 없습니다"와 같은 복잡한 진술이 NLP 모델에 의해 부정적으로 잘못 표시된다는 사실을 빠르게 확인할 수 있습니다.

이러한 버그는 테스터가 보면 명백하고 심각하지만, 매우 구체적인 문구에서만 발생하기 때문에 사람이 직접 발견하기는 어렵습니다. Microsoft 연구팀은 AdaTest를 통해 전문가 및 비전문 사용자가 테스트를 더 잘 작성하고 NLP 모델에서 오류를 찾을 수 있는지 정량적으로 평가하기 위해 사용자 설문 조사를 실시했습니다. 연구원들은 전문 사용자에게 상업용 텍스트 감정 분류기와 다음 단어 자동 완성을 위한 GPT-2라는 두 가지 모델에서 주제별 기능을 테스트하도록 요청했습니다.

이 기능은 입력되는 이메일의 다음 단어를 예측하는 등의 애플리케이션에 사용됩니다. 각 주제와 모델에 대해 참가자는 CheckList(사용자 중심 테스트의 SOTA를 나타냄) 또는 AdaTest를 사용하도록 무작위로 할당되었습니다. 연구원들은 다양한 모델과 전문 참가자들에 걸쳐 AdaTest가 5배 향상된 것을 관찰했습니다.

비전문 사용자를 위한 연구원의 테스트 요구 사항은 NLP 모델에서 독성 말뭉치의 콘텐츠 제어를 테스트하는 것입니다. 참가자는 모델이 유독하다고 판단한 코퍼스에서 무독성 콘텐츠, 즉 개인적으로 적절하다고 느끼는 콘텐츠를 찾아야 합니다. 참가자는 모델 테스트를 위해 향상된 버전의 Dynabench 크라우드소싱 인터페이스를 사용하거나 AdaTest를 사용할 수 있습니다. 그 결과 AdaTest는 최대 10배의 개선을 제공합니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

다양한 관점으로 테스트 참가자의 렌더링 테스트

디버깅 루프를 사용하여 버그 수정

충분한 오류가 발견되면 모델 테스터는 외부 디버깅 루프(아래 참조)를 수행하고 다음에서 수정합니다. 테스트 루프에서 오류가 발견된 후 모델을 다시 테스트합니다. 이 프로세스에서 디버그 루프의 "재테스트" 부분(즉, 테스트 루프를 다시 실행하는 것)은 매우 중요합니다. 테스트를 사용하여 모델을 수정하면 더 이상 테스트 데이터가 아니라 훈련 데이터가 되기 때문입니다. 버그를 수정하는 프로세스는 종종 과잉 보상되어 새로운 "수정된" 모델에 적용된 일련의 테스트를 통해서만 발견할 수 있는 디버깅 주기의 처음 몇 라운드에 지름길이나 버그를 도입합니다.

오픈 소스 RoBERTa-Large 감정 모델의 테스트 주기 프로세스입니다. 연구원들은 RoBERTa 모델이 부정적으로 잘못 표시한 그림 2의 "/sensitive/immigration" 주제에 대한 테스트부터 시작했습니다. 이러한 테스트 중에 모델이 미세 조정되고(작업 성능을 유지하기 위해 원래 교육 데이터와 혼합) 결과적으로 더 이상 실패하지 않는 새로운 모델이 탄생합니다. 그러나 테스트 루프를 다시 실행하면 신청 및 테스트 시나리오에 따라 실제로 부정적임에도 불구하고 거의 모든 이민 명세서가 "중립"으로 표시되는 것으로 나타났습니다.

이 새로운 테스트를 사용하여 다시 미세 조정하면 "모든 이민 명세서는 중립적입니다"라는 지름길을 추가하지 않고도 모델이 원래 오류를 올바르게 수정하는 것으로 나타났습니다. 물론 이것이 모델에 또 다른 지름길이 존재하지 않는다는 것을 보장하지는 않지만, 연구자의 경험에 따르면 여러 번의 디버깅 주기를 거친 후 원래 오류를 수정할 때 도입되는 예상치 못한 오류의 수가 크게 줄어듭니다.

테스터는 가능한 모든 오류를 미리 자세히 식별할 필요가 없습니다. AdaTest는 다음 테스트 및 디버깅에서 도입되는 오류를 적응적으로 표면화하고 수정합니다.

따라서 디버깅 루프는 만족스러운 모델이 생성될 때까지 현재 버그 테스트 사양의 경계를 확장합니다. 실제로 AdaTest는 NLP의 소프트웨어 엔지니어링에서 테스트-수정-재테스트 주기를 적용한 것으로 볼 수 있습니다.

NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.

디버그 루프 반복 중에 추가된 단축키가 발견되어 향후 반복에서 수정되었습니다. 디버그 루프의 효율성을 평가하기 위해 RoBERTa-Large는 Quora 질문 데이터 세트를 사용하여 세밀하게 조정되어 질문이 중복되거나 뿐만 아니라 긍정적/중립/부정적 감정 분석을 위해 Stanford Sentiment Treebank(SST) 데이터세트를 사용하여 미세 조정되었습니다.

결과에 따르면 기본 모델은 53개의 QQP 주제 중 22개와 39개의 감정 주제 중 11개를 성공적으로 식별하지 못한 것으로 나타났습니다. 이후 연구자는 테마를 복구하기 위해 데이터를 생성했다. 이 주제에 대한 데이터에서 50개의 예제를 추출하고 AdaTest로 디버깅 루프를 실행합니다. QQP 데이터 세트에서는 평균 41.6개의 테스트가 수행되고, 감정 데이터 세트에서는 평균 55.8개의 테스트가 수행됩니다.

결과에 따르면 대부분의 경우 AdaTest는 훈련에 사용된 질문과 일부 보이지 않는 예약된 질문을 질문을 삭제하지 않고 수정하는 반면, 원본 CheckList 데이터에는 종종 새로운 오류가 발생하여 다른 테스트 질문이 삭제되는 것으로 나타났습니다. 연구원들은 또한 표준 개발 환경에서 AdaTest의 효율성을 평가했습니다. 3개월 간의 개발, CheckList 테스트 및 GPT-3 기반 임시 데이터 확대를 거친 후 F1 점수는 야생에서 수집된 보이지 않는 데이터에 대해 0.66(1.00점 만점)입니다.

AdaTest를 사용하는 동일한 팀은 4시간 동안 자체 디버그 루프를 실행한 후 동일한 보이지 않는 데이터 세트에서 F1 점수 0.77을 달성했습니다. 이 점수는 나중에 보이지 않는 두 번째 데이터 세트에 복제되어 AdaTest가 버그 수정을 수행하고 기존 방법이 실패하는 영역에서 더 나은 결과를 얻을 수 있음을 보여주었습니다.

사람들은 언어 모델이 부족한 문제 사양을 제공하는 반면, 언어 모델은 더 큰 규모와 범위에서 고품질 테스트를 제공하고 모델 테스트와 디버깅을 연결하고 오류를 효과적으로 수정하며 모델 개발을 전통적인 소프트웨어 개발에 더 가깝게 만듭니다. .

인간과 AI의 협력은 머신러닝 개발의 미래 방향을 나타냅니다. 대규모 언어 모델의 역량이 계속해서 성장함에 따라 이러한 협력도 계속해서 향상될 것으로 기대됩니다.

위 내용은 NLP 모델은 사람의 말을 읽을 수 없나요? Microsoft AdaTest를 사용하면 버그를 5배 더 효율적으로 찾을 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Docker 원리에 대한 자세한 설명 Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Centos 설치 MySQL Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos에서 Gitlab 로그를 보는 방법 Centos에서 Gitlab 로그를 보는 방법 Apr 14, 2025 pm 06:18 PM

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

Centos에서 Pytorch 버전을 선택하는 방법 Centos에서 Pytorch 버전을 선택하는 방법 Apr 14, 2025 pm 06:51 PM

CentOS 시스템에 Pytorch를 설치할 때는 적절한 버전을 신중하게 선택하고 다음 주요 요소를 고려해야합니다. 1. 시스템 환경 호환성 : 운영 체제 : CentOS7 이상을 사용하는 것이 좋습니다. Cuda 및 Cudnn : Pytorch 버전 및 Cuda 버전은 밀접하게 관련되어 있습니다. 예를 들어, pytorch1.9.0은 cuda11.1을 필요로하고 Pytorch2.0.1은 cuda11.3을 필요로합니다. CUDNN 버전도 CUDA 버전과 일치해야합니다. Pytorch 버전을 선택하기 전에 호환 CUDA 및 CUDNN 버전이 설치되었는지 확인하십시오. 파이썬 버전 : Pytorch 공식 지점

See all articles