LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.
Background
대형모델(LLM)은 인공지능(AGI) 발전의 새로운 방향을 제시하며, 인터넷, 서적, 기타 말뭉치 등 대규모 공공데이터를 통해 대규모 자기주도 학습을 진행합니다. 강력한 언어 이해력, 언어 생산, 추론 및 기타 능력을 얻습니다. 그러나 대규모 모델은 여전히 프라이빗 도메인 데이터를 활용하는 데 몇 가지 어려움에 직면해 있습니다. 프라이빗 도메인 데이터는 특정 기업이나 개인이 소유한 데이터를 말하며 일반적으로 도메인별 지식을 포함하고 있으며 대규모 모델과 프라이빗 도메인 지식을 결합하면 큰 가치를 제공할 수 있습니다.
개인 도메인 지식은 데이터 형태에 따라 비정형 데이터와 정형 데이터로 나눌 수 있습니다. 문서와 같은 비정형 데이터는 일반적으로 검색을 통해 강화되며, 랭체인과 같은 도구를 사용하면 질의응답 시스템을 신속하게 구현할 수 있습니다. 데이터베이스(DB)와 같은 구조화된 데이터에는 유용한 정보를 얻기 위해 데이터베이스와 상호 작용하고 쿼리하고 분석하기 위한 대규모 모델이 필요합니다. 최근 LLM을 사용하여 지능형 데이터베이스 생성, BI 분석 수행, 자동 테이블 구성 완료 등 대규모 모델 및 데이터베이스를 중심으로 일련의 제품 및 애플리케이션이 파생되었습니다. 그 중에서도 데이터베이스와 자연어로 상호작용하는 text-to-SQL 기술은 늘 기대되는 방향이었습니다.
학계에서는 과거 text-to-SQL 벤치마크가 소규모 데이터베이스에만 중점을 두었습니다. 가장 발전된 LLM은 이미 85.3%의 실행 정확도를 달성했지만 이는 LLM이 이미 자연어로 사용될 수 있다는 의미입니다. 데이터베이스용 인터페이스?
신세대 데이터 세트
최근 Alibaba는 홍콩 대학 및 기타 기관과 함께 새로운 벤치마크 BIRD(Can LLM이 이미 데이터베이스 인터페이스 역할을 할 수 있습니까? 대규모 데이터베이스 기반 텍스트를 위한 BIg 벤치)를 출시했습니다. ) 95개의 대규모 데이터베이스와 고품질 Text-SQL 쌍을 포함하며 최대 33.4GB의 데이터 저장 용량을 갖춘 대규모 실제 데이터베이스 -SQL). 이전의 최고 모델은 BIRD에서 40.08%의 평가만을 달성했는데, 이는 인간의 결과인 92.96%와는 여전히 거리가 멀기 때문에 여전히 과제가 존재한다는 것을 증명합니다. 저자는 SQL의 정확성을 평가하는 것 외에도 모델이 올바른 SQL을 작성할 수 있을 뿐만 아니라 효율적인 SQL을 작성할 수 있기를 바라며 SQL 실행 효율성에 대한 평가도 추가했습니다.
논문: https://arxiv.org/abs/2305.03111
홈페이지: https://bird-bench.github.io
코드: https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird
현재 BIRD의 데이터, 코드, 목록은 오픈소스로 공개되어 있으며 전 세계적으로 다운로드 횟수는 10000을 초과했습니다. BIRD는 출시 이후 트위터에서 광범위한 관심과 토론을 불러일으켰습니다.
해외 유저들의 댓글도 매우 흥미롭습니다.
놓쳐서는 안 될 LLM 프로젝트
매우 유용한 체크포인트, 개선의 온상
AI가 도움을 줄 수는 있지만 아직은 대체할 수는 없습니다
내 직업은 지금은 안전합니다...
방법 개요
새로운 과제
이 연구는 주로 Spider 및 WikiSQL과 같은 과거에 인기 있었던 테스트 벤치마크의 Text-to-SQL 평가를 지향하며 소량의 데이터베이스 스키마에만 중점을 둡니다. 데이터베이스 콘텐츠로 인해 학술 연구 결과와 실제 응용 프로그램 간에 차이가 있습니다. BIRD는 대규모 및 실제 데이터베이스 콘텐츠, 자연어 질문과 데이터베이스 콘텐츠 간의 외부 지식 추론, 대규모 데이터베이스 처리 시 SQL의 효율성이라는 세 가지 새로운 과제에 중점을 둡니다.
우선, 데이터베이스에는 방대하고 시끄러운 데이터 값이 포함되어 있습니다. 왼쪽 예시에서는 데이터베이스의 문자열을 부동 소수점 값으로 변환(Float)한 후 집계 계산(Aggregation)을 수행하여 평균 급여를 계산해야 합니다.
두 번째로 외부 지식 추론이 필요합니다. , 중간 예에서는 사용자에게 정확한 답변을 반환하기 위해 모델은 대출에 적합한 계좌 유형이 "OWNER"("OWNER")여야 함을 먼저 알아야 하며, 이는 거대한 데이터베이스 뒤에 숨겨진 미스터리를 나타냅니다. 때로는 외부 지식과 추론이 필요합니다.
마지막으로 쿼리 실행 효율성을 고려해야 합니다. 오른쪽 예에서 보다 효율적인 SQL 쿼리를 사용하면 속도가 크게 향상될 수 있습니다. 이는 사용자가 올바른 SQL을 작성할 뿐만 아니라 특히 대규모 데이터베이스에서 효율적인 SQL 실행을 기대하기 때문에 업계에 큰 가치가 있습니다. ;
데이터 주석
BIRD는 주석 처리 중에 질문 생성과 SQL 주석을 분리합니다. 동시에 문제 및 SQL 주석 담당자가 데이터베이스를 더 잘 이해할 수 있도록 데이터베이스 설명 파일을 작성하는 전문가가 추가됩니다.
1. 데이터베이스 수집: 저자는 Kaggle 및 CTU Praha Relational Learning Repository와 같은 오픈 소스 데이터 플랫폼에서 80개의 데이터베이스를 수집하고 처리했습니다. 현재 대규모 모델에서 현재 데이터베이스가 학습되는 것을 방지하기 위해 실제 테이블 데이터를 수집하고, ER 다이어그램을 작성하고, 데이터베이스 제약 조건을 설정하여 15개의 데이터베이스를 블랙박스 테스트로 수동으로 생성했습니다. BIRD의 데이터베이스에는 블록체인, 스포츠, 의료, 게임 등을 포괄하는 37개 분야의 여러 분야의 패턴과 값이 포함되어 있습니다.
2. 문제 수집: 먼저 작성자는 데이터베이스에 대한 설명 파일을 작성하기 위해 전문가를 고용합니다. 설명 파일에는 전체 열 이름, 데이터베이스 값에 대한 설명 및 값을 이해하는 데 사용되는 외부 지식이 포함됩니다. 그런 다음 미국, 영국, 캐나다, 싱가포르 및 기타 국가에서 11명의 원어민을 모집하여 BIRD에 대한 질문을 생성했습니다. 모든 연사는 최소한 학사 학위 이상의 학위를 가지고 있습니다.
3. SQL 생성: BIRD용 SQL을 생성하기 위해 데이터 엔지니어와 데이터베이스 과정 수강생으로 구성된 글로벌 주석 팀이 모집되었습니다. 데이터베이스와 참조 데이터베이스 설명 파일이 주어지면 어노테이터는 질문에 정확하게 답하기 위해 SQL을 생성해야 합니다. 동일한 질문에 두 명의 주석자가 주석을 달아야 하는 Double-Blind 주석 방법이 채택되었습니다. 이중맹검 주석은 단일 주석으로 인해 발생하는 오류를 최소화할 수 있습니다.
4. 품질 검사: 품질 검사는 결과 실행의 효율성과 일관성이라는 두 부분으로 나뉩니다. 유효성은 실행의 정확성을 요구할 뿐만 아니라 실행 결과가 널(NULL)이 될 수 없는 것을 요구합니다. 전문가들은 SQL 실행 결과가 유효할 때까지 문제 조건을 점진적으로 수정해 나갈 것입니다.
5. 난이도 구분: text-to-SQL의 난이도 지수는 연구자들에게 알고리즘 최적화를 위한 참고 자료를 제공할 수 있습니다. Text-to-SQL의 난이도는 SQL의 복잡성뿐만 아니라 문제 난이도, 추가 지식을 통한 이해의 용이성, 데이터베이스 복잡성 등의 요소에 따라 달라집니다. 따라서 저자는 SQL 주석 작성자에게 주석 프로세스 중 난이도를 평가하도록 요청하고 난이도를 쉬움, 보통, 어려움의 세 가지 범주로 나누었습니다.
데이터 통계
1. 질문 유형 통계: 질문은 기본 유형과 추론 유형의 두 가지 범주로 나뉩니다. 기본 질문 유형에는 기존 Text-to-SQL 데이터 세트에서 다루는 질문이 포함되고, 추론 질문 유형에는 값을 이해하기 위해 외부 지식이 필요한 질문이 포함됩니다.
2. 데이터베이스 배포: 저자는 선버스트 그래프를 사용합니다. 데이터베이스 도메인과 해당 데이터 크기 간의 관계를 표시합니다. 반경이 클수록 해당 데이터베이스를 기반으로 하는 text-SQL이 더 많아지고 그 반대도 마찬가지입니다. 색상이 진할수록 데이터베이스 크기가 커집니다. 예를 들어 donor는 벤치마크에서 가장 큰 데이터베이스로 4.5GB의 공간을 차지합니다.
3.SQL 분포: 저자는 SQL 토큰 수, 키워드 수, n-gram 유형 수의 4가지 차원을 통해 BIRD의 SQL이 가장 다양하고 복잡하다는 것을 증명합니다. , 그리고 JOIN의 수.
평가 지표
1. 모델에서 예측한 SQL 실행 결과와 주석이 추가된 실제 SQL 실행 결과의 차이를 비교합니다.
2. 점수: 동시에 SQL의 정확성과 효율성을 고려하여 모델이 예측한 SQL 실행 속도와 실제 레이블이 지정된 SQL 실행 속도의 상대적인 차이를 비교하며, 실행 시간을 효율성의 주요 지표로 간주합니다.
실험 분석
저자는 이전 벤치마크 테스트에서 뛰어난 성능을 보인 학습형 T5 모델과 LLM(대형 언어 모델)을 기준 모델로 선정했습니다: Codex(code-davinci-002) 및 ChatGPT (gpt-3.5-터보). 다단계 추론이 실제 데이터베이스 환경에서 대규모 언어 모델의 추론 기능을 자극할 수 있는지 더 잘 이해하기 위해 Chain-of-Thought 버전도 제공됩니다. 기본 모델은 두 가지 설정으로 테스트됩니다. 하나는 전체 스키마 정보 입력이고, 다른 하나는 문제와 관련된 데이터베이스 값에 대한 인간의 이해이며 모델이 데이터베이스를 이해하는 데 도움이 되는 자연어 설명(지식 증거)으로 요약됩니다. .
저자는 몇 가지 결론을 내립니다.
1. 추가 지식 획득: 데이터베이스 가치 이해에 대한 지식 증가 증거가 명백한 효과 개선을 가져오며, 이는 실제 데이터베이스에서 다음과 같습니다. 의미론적 분석 기능에만 의존하는 것만으로는 충분하지 않습니다. 데이터베이스 값을 이해하면 사용자가 더 정확하게 답변을 찾는 데 도움이 됩니다.
2. 사고 연결이 반드시 완전히 유익한 것은 아닙니다. 모델에 주어진 데이터베이스 값 설명과 제로샷이 없는 경우 모델 자체의 COT 추론이 더 정확하게 답변을 생성할 수 있습니다. 그러나 추가 지식(지식 증거)이 제공되었을 때 LLM은 COT를 수행하도록 요청받았으며 그 효과가 중요하지 않거나 심지어 감소하는 것으로 나타났습니다. 따라서 이 시나리오에서는 LLM이 지식 충돌을 일으킬 수 있습니다. 모델이 외부 지식을 수용하고 자체의 강력한 다단계 추론을 통해 이익을 얻을 수 있도록 이러한 갈등을 해결하는 방법이 향후 주요 연구 방향이 될 것입니다.
3. 인간과의 격차: BIRD는 인간 지표도 제공합니다. 저자는 처음으로 테스트 세트에 직면했을 때 Annotator의 성능을 테스트하기 위해 시험을 사용하고 이를 인간 지표의 기초로 사용합니다. 실험에 따르면 현재 최고의 LLM은 여전히 인간보다 훨씬 뒤처져 있으며, 이는 여전히 과제가 존재한다는 것을 증명합니다. 저자는 상세한 오류 분석을 수행하고 향후 연구를 위한 몇 가지 잠재적인 방향을 제시했습니다.
결론
데이터베이스 분야에 LLM을 적용하면 사용자에게 더욱 스마트하고 편리한 데이터베이스 상호 작용 경험을 제공할 수 있습니다. BIRD의 출현은 자연어와 실제 데이터베이스 간의 지능적인 상호 작용 개발을 촉진하고, 실제 데이터베이스 시나리오를 위한 텍스트-SQL 기술의 발전을 위한 여지를 제공하며, 연구자가 보다 발전되고 실용적인 데이터베이스 애플리케이션을 개발하는 데 도움이 될 것입니다.
위 내용은 LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

C에서 Chrono 라이브러리를 사용하면 시간과 시간 간격을보다 정확하게 제어 할 수 있습니다. 이 도서관의 매력을 탐구합시다. C의 크로노 라이브러리는 표준 라이브러리의 일부로 시간과 시간 간격을 다루는 현대적인 방법을 제공합니다. 시간과 C 시간으로 고통받는 프로그래머에게는 Chrono가 의심 할 여지없이 혜택입니다. 코드의 가독성과 유지 가능성을 향상시킬뿐만 아니라 더 높은 정확도와 유연성을 제공합니다. 기본부터 시작합시다. Chrono 라이브러리에는 주로 다음 주요 구성 요소가 포함됩니다. std :: Chrono :: System_Clock : 현재 시간을 얻는 데 사용되는 시스템 클럭을 나타냅니다. STD :: 크론

C의 DMA는 직접 메모리 액세스 기술인 DirectMemoryAccess를 말하며 하드웨어 장치는 CPU 개입없이 데이터를 메모리로 직접 전송할 수 있습니다. 1) DMA 운영은 하드웨어 장치 및 드라이버에 크게 의존하며 구현 방법은 시스템마다 다릅니다. 2) 메모리에 직접 액세스하면 보안 위험이 발생할 수 있으며 코드의 정확성과 보안이 보장되어야합니다. 3) DMA는 성능을 향상시킬 수 있지만 부적절하게 사용하면 시스템 성능이 저하 될 수 있습니다. 실습과 학습을 통해 우리는 DMA 사용 기술을 습득하고 고속 데이터 전송 및 실시간 신호 처리와 같은 시나리오에서 효과를 극대화 할 수 있습니다.

C에서 높은 DPI 디스플레이를 처리 할 수 있습니다. 1) DPI 및 스케일링을 이해하고 운영 체제 API를 사용하여 DPI 정보를 얻고 그래픽 출력을 조정하십시오. 2) 크로스 플랫폼 호환성을 처리하고 SDL 또는 QT와 같은 크로스 플랫폼 그래픽 라이브러리를 사용하십시오. 3) 성능 최적화를 수행하고 캐시, 하드웨어 가속 및 세부 사항 수준의 동적 조정을 통해 성능 향상; 4) 흐릿한 텍스트 및 인터페이스 요소와 같은 일반적인 문제를 해결하고 DPI 스케일링을 올바르게 적용하여 해결합니다.

C는 실시간 운영 체제 (RTO) 프로그래밍에서 잘 수행하여 효율적인 실행 효율성과 정확한 시간 관리를 제공합니다. 1) c 하드웨어 리소스의 직접 작동 및 효율적인 메모리 관리를 통해 RTO의 요구를 충족시킵니다. 2) 객체 지향 기능을 사용하여 C는 유연한 작업 스케줄링 시스템을 설계 할 수 있습니다. 3) C는 효율적인 인터럽트 처리를 지원하지만 실시간을 보장하려면 동적 메모리 할당 및 예외 처리를 피해야합니다. 4) 템플릿 프로그래밍 및 인라인 함수는 성능 최적화에 도움이됩니다. 5) 실제 응용 분야에서 C는 효율적인 로깅 시스템을 구현하는 데 사용될 수 있습니다.

C에서 스레드 성능을 측정하면 표준 라이브러리에서 타이밍 도구, 성능 분석 도구 및 사용자 정의 타이머를 사용할 수 있습니다. 1. 라이브러리를 사용하여 실행 시간을 측정하십시오. 2. 성능 분석을 위해 GPROF를 사용하십시오. 단계에는 컴파일 중에 -pg 옵션 추가, GMON.out 파일을 생성하기 위해 프로그램을 실행하며 성능 보고서를 생성하는 것이 포함됩니다. 3. Valgrind의 Callgrind 모듈을 사용하여보다 자세한 분석을 수행하십시오. 단계에는 Callgrind.out 파일을 생성하고 Kcachegrind를 사용하여 결과를보기위한 프로그램 실행이 포함됩니다. 4. 사용자 정의 타이머는 특정 코드 세그먼트의 실행 시간을 유연하게 측정 할 수 있습니다. 이 방법은 스레드 성능을 완전히 이해하고 코드를 최적화하는 데 도움이됩니다.

교환의 내장 양자화 도구에는 다음이 포함됩니다. 1. Binance : Binance 선물 정량 모듈, 낮은 취급 수수료 및 AI 지원 거래를 지원합니다. 2. OKX (OUYI) : 다중 계정 관리 및 지능형 주문 라우팅을 지원하고 기관 수준의 위험 관리를 제공합니다. 독립적 인 정량적 전략 플랫폼에는 다음이 포함됩니다. 4. Quadency : 맞춤형 위험 임계 값을 지원하는 전문 수준 알고리즘 전략 라이브러리. 5. Pionex : 내장 16 사전 설정 전략, 낮은 거래 수수료. 수직 도메인 도구에는 다음이 포함됩니다. 6. Cryptohopper : 클라우드 기반 정량 플랫폼, 150 개의 기술 지표를 지원합니다. 7. BITSGAP :

MySQL에서는 altertabletable_nameaddcolumnnew_columnvarchar (255) 이후에 필드를 추가하여 altertabletable_namedropcolumncolumn_to_drop을 사용하여 필드를 삭제합니다. 필드를 추가 할 때는 쿼리 성능 및 데이터 구조를 최적화하기위한 위치를 지정해야합니다. 필드를 삭제하기 전에 작업이 돌이킬 수 없는지 확인해야합니다. 온라인 DDL, 백업 데이터, 테스트 환경 및 저하 기간을 사용하여 테이블 구조 수정은 성능 최적화 및 모범 사례입니다.

C에서 문자열 스트림을 사용하기위한 주요 단계와 예방 조치는 다음과 같습니다. 1. 출력 문자열 스트림을 생성하고 정수를 문자열로 변환하는 것과 같은 데이터를 변환합니다. 2. 벡터를 문자열로 변환하는 것과 같은 복잡한 데이터 구조의 직렬화에 적용하십시오. 3. 성능 문제에주의를 기울이고 많은 양의 데이터를 처리 할 때 문자열 스트림을 자주 사용하지 마십시오. std :: string의 Append 메소드를 사용하는 것을 고려할 수 있습니다. 4. 메모리 관리에주의를 기울이고 스트림 스트림 객체의 자주 생성과 파괴를 피하십시오. std :: stringstream을 재사용하거나 사용할 수 있습니다.
