사전 학습된 언어 모델을 기반으로 한 산업 검색의 응용 및 연구
1. 업계 검색 배경
1. DAMO 아카데미 자연어 지능의 큰 그림
위 그림은 DAMO 아카데미 자연어 처리 지능의 기술 블록도이고, from the Bottom 포함 내용:
- NLP 데이터, NLP 기본 어휘, 구문 의미론, 분석 기술 및 상위 수준 NLP 기술
- 산업 응용: 기초 연구 외에도 DAMO 아카데미는 Alibaba에도 힘을 실어줍니다. 그룹화하고 Alibaba Cloud와 결합하여 산업에 힘을 실어줍니다. 권한 부여를 위한 많은 업계 시나리오는 검색입니다.
2. 산업 검색의 성격
검색의 성격은 동일합니다. 사용자에게는 정보 획득 요구가 있는 동시에 정보 리소스 라이브러리도 있습니다. , 검색 엔진을 통해 두 가지를 연결합니다.
전자상거래 시나리오를 예로 들어보겠습니다. 예를 들어, 사용자가 전자상거래 상점에서 aj1 North Carolina 파란색 새 운동화를 검색합니다. 이러한 사용자의 쿼리를 더 잘 이해하려면 일련의 작업을 수행해야 합니다.
- 쿼리 이해 분석: NLP 오류 수정, 단어 분할 범주 예측, 엔터티 인식 단어 가중치, 쿼리 재작성 및 기타 기술
- (오프라인) 문서 분석: NLP 분석, 품질 및 효율성 분석
- 검색 및 정렬: 검색 엔진 자체의 일부 검색 및 정렬 메커니즘과 결합된 쿼리 및 문서 분석 분석을 통해 , 둘을 연결하는 목표를 달성하는 것이 가능합니다.
3. 업계 검색 링크
검색 패러다임에 따라 나누면 일반적으로 희소 검색과 밀집 검색으로 구분됩니다.
- 희소 검색: 전통적으로 단어 기반 또는 단어 기반으로 반전된 인덱스를 구축하고 이를 기반으로 일부 텍스트 관련성 정렬 등을 포함하여 쿼리 이해를 위한 일련의 기능을 구축합니다. 밀도 검색: 사전 훈련된 언어 모델의 등장으로 사전 훈련된 기반을 기반으로 단일 타워 및 이중 타워 모델이 구현된 다음 벡터 엔진과 결합되어 검색 메커니즘을 구축합니다.
일반적으로 검색은 호출, 정렬(대략 정렬, 미세 정렬, 재배열)과 같은 링크 형태의 구분으로 나뉩니다.
리콜 단계:
과 결합될 수 있는 상대적으로 복잡하고 관련성이 높은 모델입니다. 왼쪽에서 오른쪽으로 모델 복잡성과 효과 정확도가 높아집니다. 오른쪽에서 왼쪽으로 처리되는 문서 수가 늘어납니다. 리콜(십억), 예비 순위(십만), 정밀 순위(수백, 수천), 재배치(수십) 등 타오바오 전자상거래를 예로 들어보겠습니다. 생산 링크 검색은 검색 효과와 엔지니어링 효율성이 절충되는 시스템입니다. 컴퓨팅 성능이 향상됨에 따라 복잡한 모델이 대체되기 시작합니다. 예를 들어, 미세하게 정렬된 모델은 이제 점차적으로 대략적인 정렬 또는 리콜 단계로 이동합니다. 검색 성능 평가: 산업 시나리오는 매우 큽니다. 여기서는 소비자 인터넷 검색과 산업 인터넷 검색으로 나뉩니다. 검색은 오프라인 데이터, 검색 서비스 프레임워크(녹색 부분), 검색 기술 알고리즘 시스템(파란색 부분), 그 기반은 문서 분석, 쿼리 이해, 상관 관계 등을 수행하는 Alicemind 사전 훈련된 언어 모델 시스템입니다. AliceMind는 DAMO Academy에서 구축한 계층적 사전 학습 언어 모델 시스템입니다. 일반 사전 학습 모델, 다중 언어, 다중 모드, 대화 등이 포함되어 있으며 모든 NLP 작업의 기반입니다. 검색의 단어 분할(원자적 기능)은 검색 색인 세분성을 결정하며, 후속 관련성 및 BM25 세분성과도 관련이 있습니다. 작업별 작업의 경우 일부 사전 훈련을 사용자 정의하면 일반 사전 훈련보다 효과가 더 좋습니다. 예를 들어, 최근 연구에서는 기본 BERT 사전 훈련 작업에 통계 단어, 그램 세분성 또는 경계 엔트로피와 같은 감독되지 않은 통계 정보를 추가한 다음 사전 훈련에 mse-loss를 추가하려고 합니다. CWS/POS 및 NER(오른쪽 그림)에서는 많은 작업이 SOTA에 도달했습니다. 또 다른 연구는 교차 분야입니다. 매번 데이터에 라벨을 붙이고 감독 작업을 구성하는 데 드는 비용이 매우 높으므로 도메인 간 비지도 단어 분할 메커니즘을 구축해야 합니다. 오른쪽 하단에 있는 표는 오픈 소스 단어 분할에 비해 전자상거래 단어 분할의 품질이 크게 향상되었다는 예입니다. 이 방법도 ACL2020에 출시되었습니다. 검색 명명된 엔터티 인식은 주로 쿼리 및 문서에 대한 구조화된 이해와 관련되며 핵심 문구 및 유형을 식별합니다. 동시에 검색 지식 그래프의 구성도 NER 기능에 의존합니다. NER를 검색하는 데도 몇 가지 어려움이 따릅니다. 주된 이유는 쿼리가 상대적으로 짧고 컨텍스트가 부족하기 때문입니다. 예를 들어, 전자 상거래의 쿼리 엔터티는 매우 모호하고 지식이 풍부합니다. 따라서 최근 NER의 핵심 최적화 아이디어는 맥락이나 지식의 도입을 통해 NER의 표현력을 높이는 것입니다. 은 2020년과 2021년에 암시적 향상 작업 콤보 임베딩을 수행했습니다. 기존 단어 추출기 또는 GLUE 표현을 동적으로 통합함으로써 SOTA를 달성하기 위한 많은 비즈니스 작업에 사용될 수 있습니다. 2021년에는 명시적 검색 향상이 개발될 예정입니다. 텍스트는 검색 엔진을 통해 향상된 컨텍스트를 받고 변환기 구조에 통합됩니다. 이 작품은 ACL 2021에 출판되었습니다. 이 작업을 바탕으로 SemEval 2022 다국어 NER 평가에 참여하여 10개의 우승과 최우수 시스템 논문을 획득했습니다. 검색 향상: 입력 문장 자체 외에도 추가 컨텍스트가 검색되어 입력에 연결되며 학습에 도움이 되는 KL의 손실과 결합됩니다. 많은 오픈 소스 데이터 세트에서 SOTA를 획득했습니다. BERT 자체는 매우 효과적이지만 실제 프로덕션에서는 GPU 클러스터가 거의 없고 각 작업을 수행해야 하므로 성능 추론 비용이 많이 듭니다. 우리는 추론을 한 번만 할 수 있는지 생각하고, 인코더 후에 각 작업을 자체적으로 조정하여 더 나은 결과를 얻을 수 있는지 생각합니다. 직관적인 방법은 메타 작업 프레임워크를 통해 NLP 쿼리 분석 작업을 통합하는 것입니다. 그러나 전통적인 메타 작업은 균일하게 샘플링된 분포입니다. 우리는 다양한 작업에 대해 샘플링을 자체 적응하는 적응형 메타 학습 기반 방법인 MOMETAS를 제안합니다. 여러 작업을 학습하는 과정에서 주기적으로 검증 데이터를 사용하여 다양한 작업 학습의 효과를 테스트해 보겠습니다. 보상은 이전 훈련의 샘플링을 안내합니다. (아래 표) 많은 작업에 이 메커니즘을 결합하면 UB(균일 분포)에 비해 많은 개선이 이루어집니다. 위의 메커니즘을 적용하여 많은 업계의 시나리오를 검색할 수 있습니다. BERT는 한 번만 인코딩되어 저장되며 많은 다운스트림 작업에서 직접 재사용할 수 있어 성능이 크게 향상될 수 있다는 이점이 있습니다. 심층 검색은 이중 타워 또는 단일 타워에 지나지 않으며, 이는 감독된 신호 및 사전 훈련된 모델입니다. Finetune Embedding을 통해 얻은 쿼리와 문서의 특성을 나타냅니다. 최근 최적화 경로는 주로 데이터 향상이나 어려운 샘플 마이닝이고, 다른 하나는 사전 훈련된 언어 모델을 최적화하는 것입니다. 기본 BERT는 검색에 특히 적합한 텍스트 표현이 아니므로 텍스트 표현 검색을 위해 미리 훈련된 언어 모델이 있습니다. 다른 최적화는 다중 뷰 텍스트 표현과 특수 손실 설계에 있습니다. 네이티브 BERT의 무작위 샘플링과 비교하여 검색어 가중치를 결합하여 더 높은 단어 가중치로 단어를 늘려 샘플링 확률을 높이고 학습된 표현이 검색 리콜에 더 적합합니다. 또한, 문장수준 비교학습이 추가됩니다. 이 두 가지 메커니즘을 결합하여 사전 훈련된 ROM 언어 모델이 제안되었습니다. MS MARCO에서 실험을 수행하고 이전 방법을 비교하여 최상의 결과를 얻으세요. 실제 장면 검색 작업에서도 큰 개선을 가져올 수 있습니다. 동시에 이 모델은 MS랭킹에도 참여했습니다. ROM 리콜 단계 외에도 정밀 순위 지정 및 reranking 단계에서 목록 인식 Transformer reranking 세트가 제안되어 많은 카테고리를 미세 조정할 수 있습니다. Transformer의 결과는 Transformer를 통해 유기적으로 혼합되어 크게 개선되었습니다. ROM과 HLATR 두 가지 솔루션을 결합한 결과, 3월부터 현재(7월)까지의 결과는 여전히 SOTA입니다. 다모아카데미에서 개발한 주소 분석 상품은 다양한 업종에 수많은 통신 주소가 있다는 사실을 바탕으로 만들어졌습니다. 중국어 통신 주소에는 구어체 표현의 기본값이 많은 등 많은 특징이 있습니다. 동시에 주소 자체는 사람이나 사물이며, 객관적인 세계의 많은 개체를 연결하는 중요한 개체 단위입니다. 따라서 이를 기반으로 파싱, 완성, 검색, 주소 분석을 제공하기 위한 일련의 주소 지식 그래프를 구축하였다. 제품의 기술 블록도입니다. 아래에서 위로 전체 링크를 연결하는 검색 엔진 기반 프레임워크를 포함하여 주소 지식 그래프 구축과 주소 사전 학습 언어 모델이 포함됩니다. 위에서 언급한 벤치마크 기능은 API 형태로 제공되며 산업 솔루션에 패키지되어 있습니다. 이 기술에서 가장 중요한 점 중 하나는 지리적 의미론의 사전 훈련된 언어 모델입니다. 주소는 텍스트에서는 문자열로 표현되지만 실제로는 공간상으로는 경도와 위도로 표현되는 경우가 많으며, 지도에는 그에 상응하는 그림이 있습니다. 따라서 이 세 가지 양식의 정보는 위치에서의 작업을 지원하기 위해 다중 모드 지리 의미 언어 모델에 유기적으로 통합됩니다. 위에서 언급한 것처럼 단어 분할, 오류 수정, 구조화 및 기타 분석 등 주소와 관련된 많은 기본 기능이 필요합니다. 핵심 링크는 지리적 사전 학습 언어 모델을 연결하고 기본 작업을 처리하며 검색 엔진을 실행하여 이들을 연결하는 것입니다. 예를 들어 Zhejiang No.1 Hospital을 검색하면 이에 대한 구조화, 동의어 수정, 용어 가중치 부여, 벡터화, Geohash 예측 등을 수행할 수 있습니다. 분석 결과를 바탕으로 회상해 보세요. 이 링크는 텍스트 호출, 병음 호출, 벡터 호출을 수행하고 지리적 호출도 추가하는 표준 검색 링크입니다. 회상 다음에는 다단계 특성 융합을 포함한 다단계 정렬이 수행됩니다. 주소 검색 시스템의 직관적인 적용은 제안 장면에 주소를 입력하거나 공간상의 한 지점에 매핑되어야 하는 Amap 지도에서 검색하는 것입니다. 다음으로 비교적 산업용 애플리케이션 솔루션 두 가지를 소개하겠습니다. 첫 번째는 새로운 소매 Family ID입니다. 핵심 요구 사항은 고객 관리 시스템을 유지하는 것입니다. 그러나 각 시스템의 사용자 정보가 연결되어 있지 않아 효과적인 통합이 이루어지지 않습니다. 예를 들어 한 브랜드 제조사가 에어컨을 판매하는데, 가족들이 구매, 설치, 유지 관리 등으로 인해 다양한 주소와 휴대폰 번호를 등록하지만 해당 주소는 실제로는 동일한 주소입니다. 확립된 주소 검색 정규화 기술은 서로 다른 표현으로 주소를 정규화하고, 지문을 생성하며, 서로 다른 사용자 ID를 Family 개념으로 집계합니다. 가족 집합 개념을 통해 신규 소매점 하에서 더 나은 침투 분석, 광고 게재 및 기타 마케팅 활동을 달성할 수 있습니다. 또 다른 응용 시나리오는 119, 129, 긴급 및 기타 지능형 경보 수신 응용 프로그램입니다. 사람들의 개인 및 재산 안전이 관련되어 있기 때문에 매 순간이 중요합니다. 우리는 음성 인식과 텍스트 의미 이해 기술을 결합하여 이러한 효율성을 향상시키기를 희망합니다. (왼쪽 예) 장면에는 ASR 전사의 오타, 유창성, 구어체 및 기타 문제와 같은 많은 특징이 있습니다. 목표는 자동화된 음성 전사 분석을 기반으로 알람 위치를 추론하는 것입니다. 우리는 대화 이해, 원활한 음성 언어 오류 수정, 의도 인식 및 검색 집합의 조합을 포함한 완전한 시스템 솔루션 세트를 제안했습니다. 최종적으로 주소 추천을 구현하기 위해 대략적인 선택과 정밀한 선택 메커니즘을 회상합니다. 이 링크는 상대적으로 성숙했으며 중국 내 수백 개 도시의 소방 시스템에 구현되었습니다. 소방관은 경보 대화를 통해 특정 위치를 식별하고 추천, 일치 및 주소 울타리를 결합하여 특정 위치를 결정하고 그에 따라 경보를 보냅니다. 다음으로 To C와 교사에게도 수요가 많은 교육 업계의 사진 컬렉션 사업을 소개하겠습니다. 사진 검색 질문에는 여러 가지 기능이 있으며, 점진적으로 업데이트되는 문제 은행이 있으며 사용자 기반이 넓습니다. 또한 다양한 학문 분야와 연령층에 해당하는 분야에 대한 지식이 풍부합니다. 동시에 이는 OCR에서 후속 의미론적 이해 및 검색에 이르는 일련의 링크가 포함된 다중 모드 알고리즘입니다. 최근에는 사진 수집을 위해 알고리즘에서 시스템까지의 완전한 링크 세트가 구축되었습니다. 예를 들어 휴대폰과 OCR 인식으로 사진을 찍은 후, 검색에 도움이 되는 맞춤법 교정, 주제 예측, 단어 분할, 단어 가중치 부여 등 일련의 작업이 수행됩니다. OCR은 영어의 공백을 인식하지 못하기 때문에 K12 영어 사전 학습 알고리즘 모델 세트를 사용하여 영어를 분할하도록 학습했습니다. 동시에 주제와 문제 유형을 알 수 없으므로 미리 예측해야 합니다. 다중 양식을 사용하여 의도 이해를 위해 이미지와 텍스트를 결합합니다. 사진 검색 질문은 일반 사용자 검색과 다릅니다. 사용자 검색은 검색어가 짧은 경향이 있는 반면, 사진 검색 질문은 완전한 질문인 경우가 많습니다. 문제의 단어 중 중요하지 않은 단어가 많아 단어 가중치 분석을 하거나, 중요하지 않은 단어를 버리거나 정렬하여 다운그레이드하는 작업이 필요합니다. 사진 검색 장면에서 가장 눈에 띄는 최적화 효과는 벡터 리콜입니다. 성능 요구 사항으로 인해 OR 리콜 메커니즘을 사용하기 어렵고 AND 로직을 사용해야 합니다. 이에 상응하는 특징은 리콜이 상대적으로 적다는 것입니다. 재현율을 높이려면 용어 가중치 및 오류 수정과 같은 중복 모듈을 더 많이 수행해야 합니다. (오른쪽 그림) 텍스트와 벡터의 다중 채널 호출 효과는 순수 OR 논리의 효과를 능가하며 지연 시간은 10배 감소합니다. 사진 검색 링크에는 이미지 벡터 회상, 공식 회상 및 개인화된 회상이 포함됩니다. 두 가지 예를 들어보세요. 첫 번째는 일반 텍스트의 OCR 결과입니다.(왼쪽 열) 이전 결과는 ES, 단순 OR 리콜에 BM25의 결과를 더한 것입니다.(오른쪽 열) 다중 채널 리콜 및 상관 리콜 이후의 링크가 크게 늘어났습니다. 향상. . 두 번째는 그래픽이 포함된 사진을 찍는 것인데, 이는 여러 채널에서 사진 회상과 결합되어야 합니다. 기업 검색에는 반정형, 비정형 데이터가 많아 통합검색을 제공하여 기업의 데이터 통합을 돕습니다. 자원 . 전력 분야뿐만 아니라 다른 산업 분야에도 비슷한 요구 사항이 있습니다. 여기서의 검색은 더 이상 좁은 검색이 아니라 문서 전처리 AI와 지식 그래프 구축, 그리고 이후에 질문과 답변을 연결하는 기능도 포함합니다. 위는 구조화부터 검색, 적용까지 전력 지식베이스의 제도적 표준 텍스트 세트를 작성하는 개략도입니다.
4. 소비자 인터넷과 산업 인터넷에서 검색
2. 관련 기술 연구
1. AliceMind 시스템
2. 단어 분할
3. 명명된 엔터티 인식
4. 적응형 다중 작업 훈련
5. 사전 훈련된 언어 모델 검색 및 호출
6. HLATR reranking 모델
3. 업종 검색 애플리케이션
1. 주소 분석 상품
2. 교육용 사진 검색 질문
3. 파워 지식베이스 통합검색
위 내용은 사전 학습된 언어 모델을 기반으로 한 산업 검색의 응용 및 연구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











언어 모델은 일반적으로 문자열 형식인 텍스트에 대해 추론하지만 모델에 대한 입력은 숫자만 가능하므로 텍스트를 숫자 형식으로 변환해야 합니다. 토큰화는 자연어 처리의 기본 작업으로, 연속적인 텍스트 시퀀스(예: 문장, 단락 등)를 특정 필요에 따라 문자 시퀀스(예: 단어, 구, 문자, 구두점 등)로 나눌 수 있습니다. 그 안에 있는 단위를 토큰 또는 단어라고 합니다. 아래 그림에 표시된 특정 프로세스에 따르면 먼저 텍스트 문장을 단위로 나눈 다음 단일 요소를 디지털화(벡터로 매핑)한 다음 이러한 벡터를 인코딩 모델에 입력하고 마지막으로 다운스트림 작업으로 출력하여 다음 작업을 수행합니다. 추가로 최종 결과를 얻으십시오. 텍스트 분할은 텍스트 분할의 세분성에 따라 Toke로 나눌 수 있습니다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

2018년 Google은 BERT를 출시한 후 11개 NLP 작업의 State-of-the-art(Sota) 결과를 단번에 무너뜨리며 NLP 세계의 새로운 이정표가 되었습니다. 아래 그림에서 왼쪽은 BERT 모델 사전 설정이고 오른쪽은 특정 작업에 대한 미세 조정 프로세스입니다. 그중 미세 조정 단계는 텍스트 분류, 품사 태깅, 질문 및 답변 시스템 등과 같은 일부 다운스트림 작업에서 이후에 사용될 때 미세 조정을 위한 것입니다. BERT는 다양한 환경에서 미세 조정할 수 있습니다. 구조를 조정하지 않고 작업을 수행합니다. "사전 학습된 언어 모델 + 다운스트림 작업 미세 조정" 작업 설계를 통해 강력한 모델 효과를 제공합니다. 이후 '사전 학습 언어 모델 + 다운스트림 작업 미세 조정'이 NLP 분야의 주류 학습이 되었습니다.

편집|제작자 Xingxuan|51CTO 기술 스택(WeChat ID: blog51cto) 지난 2년 동안 저는 기존 시스템보다는 대규모 언어 모델(LLM)을 사용하는 생성 AI 프로젝트에 더 많이 참여해 왔습니다. 서버리스 클라우드 컴퓨팅이 그리워지기 시작했습니다. 이들의 애플리케이션은 대화형 AI 강화부터 다양한 산업에 대한 복잡한 분석 솔루션 제공 및 기타 다양한 기능에 이르기까지 다양합니다. 퍼블릭 클라우드 제공업체가 이미 기성 생태계를 제공하고 있으며 이것이 저항이 가장 적은 경로이기 때문에 많은 기업이 이러한 모델을 클라우드 플랫폼에 배포합니다. 그러나 저렴하지는 않습니다. 클라우드는 확장성, 효율성, 고급 컴퓨팅 기능(요청 시 GPU 사용 가능)과 같은 다른 이점도 제공합니다. 퍼블릭 클라우드 플랫폼에 LLM을 배포하는 프로세스에는 잘 알려지지 않은 몇 가지 측면이 있습니다.

언어 모델이 전례 없는 규모로 확장됨에 따라 다운스트림 작업에 대한 포괄적인 미세 조정 비용이 엄청나게 높아집니다. 이러한 문제를 해결하기 위해 연구자들은 PEFT 방식에 주목하고 채택하기 시작했다. PEFT 방법의 주요 아이디어는 미세 조정 범위를 작은 매개변수 세트로 제한하여 계산 비용을 줄이면서도 자연어 이해 작업에서 최첨단 성능을 달성하는 것입니다. 이러한 방식으로 연구자들은 고성능을 유지하면서 컴퓨팅 리소스를 절약할 수 있어 자연어 처리 분야에 새로운 연구 핫스팟을 가져올 수 있습니다. RoSA는 일련의 벤치마크에 대한 실험을 통해 동일한 매개변수 예산을 사용하는 이전 LoRA(낮은 순위 적응형) 및 순수 희소 미세 조정 방법보다 성능이 뛰어난 것으로 밝혀진 새로운 PEFT 기술입니다. 이 기사에서는 심층적으로 다룰 것입니다.

최근 몇 년간 자연어 처리의 발전은 주로 대규모 언어 모델에서 비롯되었습니다. 출시되는 각각의 새로운 모델은 매개변수와 훈련 데이터의 양을 새로운 최고치로 끌어올리는 동시에 기존 벤치마크 순위를 무너뜨릴 것입니다. 예를 들어, 올해 4월 Google은 5,400억 매개변수의 언어 모델 PaLM(Pathways Language Model)을 출시했는데, 이는 일련의 언어 및 추론 테스트에서 인간을 성공적으로 능가했으며, 특히 소수의 소규모 샘플 학습 시나리오에서 탁월한 성능을 발휘했습니다. PaLM은 차세대 언어 모델의 개발 방향으로 간주됩니다. 마찬가지로 시각적 언어 모델은 실제로 놀라운 효과를 발휘하며 모델의 크기를 늘려 성능을 향상할 수 있습니다. 물론 멀티 태스킹 시각적 언어 모델에 불과하다면

25일 뉴스에 따르면 메타는 연구 커뮤니티를 위한 인공지능(AI) 기반의 새로운 대규모 언어 모델을 출시한다고 현지시간 금요일 발표했다. 마이크로소프트, 구글 등 ChatGPT의 자극을 받은 다른 기업들도 인공지능에 합류할 예정이다. . 지능적인 경쟁. Meta의 LLaMA는 "Large Language Model MetaAI"(LargeLanguageModelMetaAI)의 약어로, 정부, 커뮤니티, 학계의 연구자 및 단체가 비상업적 라이선스로 사용할 수 있습니다. 회사는 사용자가 기본 코드를 사용할 수 있도록 하여 사용자가 모델을 직접 조정하고 연구 관련 사용 사례에 사용할 수 있도록 할 것입니다. Meta는 컴퓨팅 성능에 대한 모델 요구 사항을 명시했습니다.

번역기 | 검토자: Li Rui | Sun Shujuan BigScience 연구 프로젝트는 최근 대규모 언어 모델 BLOOM을 출시했습니다. 언뜻 보면 OpenAI의 GPT-3을 복사하려는 또 다른 시도처럼 보입니다. 그러나 BLOOM이 다른 대규모 자연어 모델(LLM)과 차별화되는 점은 기계 학습 모델을 연구, 개발, 교육 및 출시하려는 노력입니다. 최근 몇 년 동안 기술 대기업들은 엄격한 영업비밀처럼 대규모 자연어 모델(LLM)을 숨겨왔고, 빅사이언스 팀은 프로젝트 초기부터 투명성과 개방성을 BLOOM의 중심에 두었습니다. 그 결과, 연구하고 연구할 수 있고 모든 사람이 사용할 수 있는 대규모 언어 모델이 탄생했습니다. 비
