


4가지 'ChatGPT 검색' 모델 종합 비교! 스탠포드 출신 중국 의사가 손으로 주석을 달았습니다. New Bing의 유창성은 가장 낮으며 문장의 거의 절반이 인용되지 않습니다.
ChatGPT 출시 직후 Microsoft는 "New Bing"을 성공적으로 출시했습니다. 주가가 급등했을 뿐만 아니라 Google을 대체하고 검색 엔진의 새로운 시대를 열겠다고 위협하기도 했습니다.
하지만 New Bing이 정말 대규모 언어 모델을 재생하는 올바른 방법일까요? 생성된 답변이 실제로 사용자에게 유용합니까? 문장의 인용문은 얼마나 신빙성이 있나요?
최근 Stanford 연구진은 다양한 소스에서 수많은 사용자 쿼리를 수집하고 Bing Chat, NeevaAI, perplexity.ai 및 YouChat이라는 4가지 인기 생성 검색 엔진에 대한 수동 분석을 수행했습니다.
문서 링크: https://arxiv.org/pdf/2304.09848.pdf
실험 결과에 따르면 기존에 생성된 검색 엔진의 응답은 원활하고 유익하지만 종종 증거 없는 진술이 포함되어 있는 것으로 나타났습니다. 그리고 부정확한 인용문.
평균적으로 인용 중 51.5%만이 생성된 문장을 완전히 뒷받침할 수 있으며, 인용 중 74.5%만이 해당 문장에 대한 증거 뒷받침으로 사용될 수 있습니다.
연구원들은 특히 일부 문장이 그럴듯하고 생성적 검색 엔진이 여전히 추가로 최적화되어야 한다는 점을 고려하면 정보를 찾는 사용자를 위한 주요 도구가 될 수 있는 시스템에 대해서는 이 결과가 너무 낮다고 생각합니다.
개인 홈페이지 : https://cs.stanford.edu/~nfliu/
제1저자 Nelson Liu는 스탠포드 대학 자연어 처리 그룹의 4년차 박사 과정 학생입니다. , 그의 지도교수는 워싱턴 대학교에서 학사 학위를 취득한 Percy Liang입니다. 그의 주요 연구 방향은 실용적인 NLP 시스템, 특히 정보 검색을 위한 애플리케이션을 구축하는 것입니다.
생성 검색 엔진을 믿지 마세요
2023년 3월 Microsoft는 "일일 미리 보기 사용자의 약 3분의 1이 매일 [Bing] Chat을 사용한다"고 보고했으며 Bing Chat이 첫 번째 공개 미리 보기를 제공한다고 밝혔습니다. 한 달에 4,500만 건의 채팅 즉, 대규모 언어 모델을 검색 엔진에 통합하는 것은 시장성이 매우 높으며 인터넷 검색 입구를 바꿀 가능성이 매우 높습니다.
그러나 현재 거대 언어 모델 기술을 기반으로 하는 기존의 생성 검색 엔진은 여전히 정확도가 낮다는 문제를 안고 있으나, 구체적인 정확도가 충분히 평가되지 않아 이해가 불가능하다. 검색 엔진.
Verifiability는 검색 엔진의 신뢰성을 높이는 열쇠입니다. 즉, 생성된 답변의 각 문장에 대한 증거 지원으로 인용에 대한 외부 링크를 제공하여 사용자가 답변 정도를 더 쉽게 확인할 수 있도록 하는 것입니다. 정확성.
연구원들은 다양한 유형과 소스의 질문을 수집하여 4개의 상용 생성 검색 엔진(Bing Chat, NeevaAI, perplexity.ai, YouChat)에 대해 수동 평가를 수행했습니다.
평가 지표에는 주로 유창성, 즉 생성된 텍스트가 일관성이 있는지 유용성이 포함됩니다. 답변 내용 정보가 문제를 해결할 수 있는지 여부 Citation Recall, 즉 인용 지원이 포함된 외부 웹사이트에 대해 생성된 문장의 비율 관련 문장. Fluency 는 사용자 쿼리, 생성된 응답 및 "응답이 유창하고 의미상 일관성이 있습니다."라는 설명을 동시에 표시합니다. 주석자는 5점 Likert 척도로 데이터의 점수를 매깁니다. 인식된 유용성 유창함과 마찬가지로 주석 작성자는 응답이 사용자의 쿼리에 유용하고 유익하다는 믿음을 평가해야 합니다. 인용 회상 인용 회상은 관련 인용에 의해 완전히 뒷받침되는 검증할 가치가 있는 문장의 비율을 의미하므로 이 지표를 계산하려면 답글에서 검증할 가치가 있는 문장을 결정해야 합니다. . 검증할 가치가 있는 각 문장이 관련 인용에 의해 뒷받침되는지 여부를 평가합니다. "검증할 가치가 있는 문장 식별" 과정에서 연구자들은 외부 세계에 대해 생성된 모든 문장은 명백하고 사소한 상식처럼 보일 수 있는 문장이라도 검증할 가치가 있다고 믿습니다. 일부 독자에게는 명백한 "상식"이지만 정확하지 않을 수도 있습니다. 검색 엔진 시스템의 목표는 외부 세계에 대해 생성된 모든 문장에 대한 참조 소스를 제공하여 독자가 단순성을 위해 검증 가능성을 희생하지 않고도 생성된 응답의 모든 서술을 쉽게 확인할 수 있도록 하는 것입니다. 사실, 어노테이터는 "언어 모델로서 나는..."과 같은 시스템이 1인칭인 응답이나 질문에 대한 질문을 제외하고 생성된 모든 문장을 확인합니다. user , "더 알고 싶으세요?" 평가"검증할 가치가 있는 진술이 관련 인용에 의해 완전히 뒷받침되는지 여부"는 식별된 소스에 기인(AIS, 식별된 소스에 기인)평가 프레임워크를 기반으로 할 수 있으며, 주석자는 이진 주석을 수행합니다. 일반 청취자가 "인용된 웹 페이지에 기초하여 다음과 같이 결론을 내릴 수 있습니다..."에 동의하는 경우 인용은 답변을 완전히 뒷받침합니다. 인용 정밀도 인용의 정밀도를 측정하려면 주석 작성자는 각 인용이 관련 문장에 대해 전체, 부분 또는 관련 없는 지원을 제공하는지 판단해야 합니다. 완전한 지원: 문장의 모든 정보는 인용에 의해 뒷받침됩니다. 부분 지원: 문장의 일부 정보는 인용에 의해 뒷받침되지만 다른 부분은 누락되거나 모순될 수 있습니다. 부적절한 지원(지원하지 않음): 참조된 웹페이지가 전혀 관련이 없거나 모순되는 경우. 관련 인용이 여러 개인 문장의 경우 주석 작성자는 추가적으로 AIS 평가 프레임워크를 사용하여 모든 관련 인용 웹 페이지가 전체적으로 문장에 대한 충분한 지원을 제공하는지 여부를 결정해야 합니다(이진 판단). 유창성 및 유용성 평가에서 각 검색 엔진은 매우 원활하고 유용한 답변을 생성할 수 있음을 알 수 있습니다. 특정 검색 엔진 평가에서는 Bing Chat의 유창성/유용성 점수가 가장 낮습니다(4.40/4.34), NeevaAI(4.43/4.48), ai(4.51)가 그 뒤를 이었습니다. /4.56) 및 YouChat(4.59/4.62)입니다. 다양한 사용자 쿼리 카테고리에서는 일반적으로 짧은 검색 질문이 긴 질문보다 더 매끄럽고 일반적으로 사실적 지식만 대답하는 것으로 볼 수 있습니다. 일부 어려운 질문에는 일반적으로 다른 테이블이나 웹 페이지가 요약되어 있으며 합성 프로세스가 필요합니다. 전반적인 유창성이 감소합니다. 인용 평가에서 기존 생성 검색 엔진은 웹 페이지를 완전하거나 정확하게 인용하지 못하는 경우가 종종 있음을 알 수 있습니다. 평균적으로 생성된 문장 중 51.5%만이 인용(회상률)으로 완전히 지원되며, 생성된 문장의 74.5%가 인용에 의해 완전히 뒷받침됩니다(회상율). 인용은 관련된 문장을 완전히 뒷받침합니다(정확성). 이 값은 이미 수백만 명의 사용자가 있는 검색 엔진 시스템에 허용되지 않습니다. 특히 생성된 응답에 많은 양의 정보가 포함되어 있는 경향이 있는 경우 더욱 그렇습니다. 그리고다양한 생성 검색 엔진 사이에는 인용 회수율과 정밀도에 큰 차이가 있습니다. perplexity.ai가 가장 높은 회수율(68.7)을 달성한 반면 NeevaAI(67.6), Bing Chat(58.7) 및 YouChat(11.1) 더 낮습니다. 반면, Bing Chat은 다양한 사용자 쿼리에서 가장 높은 정확도(89.5)를 달성했으며 perplexity.ai(72.7), NeevaAI(72.0) 및 YouChat(63.6) 이 그 뒤를 이었습니다. 긴 답변이 있는 NaturalQuestions 쿼리와 Non-NaturalQuestions 쿼리 간의 재현율 격차는 11%에 가깝습니다(각각 58.5 및 47.8). 답변에 대한 NaturalQuestions 쿼리 간의 인용 재현율은 10%에 가깝습니다(단답이 있는 쿼리의 경우 63.4, 긴 답변만 있는 쿼리의 경우 53.6, 길거나 짧은 답변이 없는 쿼리의 경우 53.4). 질문의 경우 웹 지원이 없으면 인용률이 낮아집니다. 예를 들어 개방형 AllSouls 에세이 질문을 평가할 때 생성 검색 엔진의 인용 회수율은 44.3실험 결과
위 내용은 4가지 'ChatGPT 검색' 모델 종합 비교! 스탠포드 출신 중국 의사가 손으로 주석을 달았습니다. New Bing의 유창성은 가장 낮으며 문장의 거의 절반이 인용되지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

CentOS 시스템에 Pytorch를 설치할 때는 적절한 버전을 신중하게 선택하고 다음 주요 요소를 고려해야합니다. 1. 시스템 환경 호환성 : 운영 체제 : CentOS7 이상을 사용하는 것이 좋습니다. Cuda 및 Cudnn : Pytorch 버전 및 Cuda 버전은 밀접하게 관련되어 있습니다. 예를 들어, pytorch1.9.0은 cuda11.1을 필요로하고 Pytorch2.0.1은 cuda11.3을 필요로합니다. CUDNN 버전도 CUDA 버전과 일치해야합니다. Pytorch 버전을 선택하기 전에 호환 CUDA 및 CUDNN 버전이 설치되었는지 확인하십시오. 파이썬 버전 : Pytorch 공식 지점
