


테렌스 타오(Terence Tao)가 그것을 보고 전문가라고 불렀습니다! Google 및 기타 업체에서는 LLM을 사용하여 정리를 자동으로 증명했으며, 맥락이 더 완전할수록 증명이 더 좋아졌습니다.
Transformer의 스킬 트리가 점점 더 강력해지고 있습니다.
매사추세츠 대학교, Google, 일리노이 대학교 어바나 샴페인(UIUC)의 연구원들은 최근 대규모 언어 모델을 사용하여 완전한 정리 증명을 자동으로 생성하는 목표를 성공적으로 달성한 논문을 발표했습니다.
논문 주소: https://arxiv.org/pdf/2303.04910.pdf
이 작품은 발두르(북유럽 신화에 나오는 토르의 형제)의 이름을 따서 명명되었으며, Transformer는 전체 증명을 생성할 수 있으며 모델에 추가 컨텍스트를 제공할 때 모델의 이전 증명이 향상될 수 있음을 보여줍니다.
본 논문은 2023년 12월 ESEC/FSE(ACM European Joint Conference on Software Engineering and Symposium on Fundamentals of Software Engineering)에서 게재되었으며, 우수 논문상을 수상했습니다.
우리 모두 알고 있듯이 소프트웨어에서 버그는 피할 수 없으며 일반 응용 프로그램이나 웹 사이트에는 큰 문제를 일으키지 않을 수도 있습니다. 그러나 암호화 프로토콜, 의료 기기, 우주 왕복선과 같은 중요한 시스템 뒤에 있는 소프트웨어의 경우 버그가 없는지 확인해야 합니다.
- 일반 코드 검토 및 테스트에서는 이러한 보증을 제공할 수 없으며 공식적인 확인이 필요합니다.
정형 검증을 위해 ScienceDirect에서 제공하는 설명은 다음과 같습니다.
정형 모델을 사용하여 설명된 시스템의 동작이 지정된 속성을 만족하는지 수학적으로 확인하는 프로세스(또한 정형 모델을 사용하여 설명됨)
은 정형 모델을 사용하여 설명된 시스템의 동작이 주어진 속성을 만족하는지 수학적으로 확인하는 프로세스를 말합니다.
간단히 말하면, 수학적 분석 방법을 사용하여 알고리즘 엔진을 통해 모델을 구축하고 테스트할 설계의 상태 공간에 대한 철저한 분석 및 검증을 수행합니다.
공식적인 소프트웨어 검증은 소프트웨어 엔지니어에게 가장 어려운 작업 중 하나입니다. 예를 들어, Coq 대화형 정리 증명으로 검증된 C 컴파일러인 CompCert는 특히 유비쿼터스 GCC 및 LLVM에서 사용되는 유일한 컴파일러입니다.
그러나 수동 공식 검증(교정 작성) 비용은 상당히 큽니다. C 컴파일러의 증명은 컴파일러 코드 자체의 3배 이상입니다.
그래서 정식 검증 자체가 '노동 집약적인' 작업이고, 연구자들도 자동화된 방법을 모색하고 있습니다.
Coq 및 Isabelle과 같은 증명 보조자는 한 번에 하나의 증명 단계를 예측하도록 모델을 훈련하고 모델을 사용하여 가능한 증명 공간을 검색합니다.
이 기사의 Baldur는 이 분야에서 처음으로 대규모 언어 모델의 기능을 도입하고, 자연어 텍스트 및 코드에 대한 교육을 수행하고, 증명을 미세 조정합니다.
Baldur는 완전한 증거를 생성할 수 있습니다. 한 번에 한 단계씩 정리를 진행하는 것이 아니라, 한 번에 정리를 진행합니다.
위 그림에서 볼 수 있듯이 증명 생성 모델의 입력으로 정리문만 사용한 다음 모델에서 증명 시도를 추출하고 Isabelle을 사용하여 증명 검사를 수행합니다.
Isabelle이 오류 없이 증명 시도를 수락하면 증명이 성공한 것입니다. 그렇지 않으면 증명 생성 모델에서 또 다른 증명 시도가 추출됩니다.
Baldur는 6336 Isabelle/HOL 정리 및 그 증명의 벤치마크에서 평가되어 완전한 증명 생성, 복구 및 컨텍스트 추가의 효율성을 경험적으로 보여줍니다.
그리고 이 도구를 Baldur라고 부르는 이유는 아마도 현재 최고의 자동 증명 생성 도구가 Thor라고 불리기 때문일 것입니다.
Thor는 더 높은 증명률(57%)을 가지고 있으며, 가능한 증명 공간을 검색하는 방법과 결합된 작은 언어 모델을 사용하여 증명의 다음 단계를 예측하는 반면 Baldur의 장점은 완전한 증명을 생성하는 능력입니다.
하지만 Thor와 Baldur 두 형제도 함께 일할 수 있으므로 증명률이 66%에 가깝게 높아질 수 있습니다.
자동으로 완전한 증명 생성
Baldur는 Google의 대규모 언어 모델인 Minerva를 기반으로 합니다. Minerva는 수학적 표현이 포함된 과학 논문과 웹페이지에 대해 훈련을 받고 증명과 정리에 대한 데이터를 미세 조정합니다.
Baldur는 증명 결과를 확인하는 정리 증명 조수 Isabelle과 함께 작업할 수 있습니다. 정리문이 주어졌을 때 Baldur는 거의 41%의 시간 동안 완전한 증명을 생성할 수 있었습니다.
Baldur의 성능을 더욱 향상시키기 위해 연구원들은 모델에 추가 상황 정보(예: 다른 정의 또는 이론 문서의 정리 설명)를 제공하여 증명률을 47.5%로 높였습니다.
이는 Baldur가 맥락을 파악하고 이를 사용하여 새로운 올바른 증명을 예측할 수 있다는 것을 의미합니다. 프로그래머가 관련 방법과 코드를 이해할 때 프로그램의 버그를 수정할 가능성이 더 높은 것과 유사합니다.
다음은 예입니다(fun_sum_commute 정리):
이 정리는 형식 증명 아카이브의 다항식이라는 프로젝트에서 나온 것입니다.
수동으로 증명을 작성할 때 두 가지 경우가 구별됩니다: 집합이 유한하거나 유한하지 않음:
따라서 모델의 경우 입력은 정리문이고 대상 출력은 다음과 같습니다. - 서면 증거.
Baldur는 여기서 귀납법의 필요성을 인식하고 Infinite_finite_induct라는 특별한 귀납법을 적용했습니다. 이는 인간이 작성한 증명과 동일한 일반적인 접근 방식을 따르지만 더 간결합니다.
그리고 귀납법이 필요하기 때문에 이자벨이 사용하는 큰 망치로는 기본적으로 이 정리를 증명할 수 없습니다.
Training
증명 생성 모델을 훈련하기 위해 연구원들은 새로운 증명 생성 데이터 세트를 구축했습니다.
기존 데이터세트에는 단일 증명 단계의 예가 포함되어 있으며, 각 훈련 예에는 증명 상태(입력)와 적용할 다음 증명 단계(목표)가 포함되어 있습니다.
단일 증명 단계가 포함된 데이터 세트가 있는 경우 전체 증명을 한 번에 예측하도록 모델을 훈련하려면 여기에서 새 데이터 세트를 생성해야 합니다.
연구원들은 데이터 세트에서 각 정리의 증명 단계를 추출하고 이를 연결하여 원래 증명을 재구성했습니다.
Proof fix
위의 fun_sum_commute를 예로 들면,
Baldur의 첫 번째 생성된 증명 시도가 증명 검사기에서 실패했습니다.
Baldur는 귀납법을 적용하려고 시도했지만 먼저 증명을 두 가지 경우(유한 집합 대 무한 집합)로 나누는 데 실패했습니다. Isabelle은 다음 오류 메시지를 반환합니다.
이러한 문자열에서 증명 복구 훈련 예제를 도출하기 위해 여기서 정리문, 실패한 증명 시도 및 오류 메시지가 입력으로 연결되고 사람이 작성한 올바른 증명이 대상으로 사용됩니다.
위 그림은 학습 데이터 생성 과정을 자세히 보여줍니다.
증명 생성 모델을 사용하여 원래 훈련 세트의 각 질문에 대해 온도가 0인 증명을 샘플링합니다.
교정 도우미를 사용하여 실패한 모든 교정과 해당 오류 메시지를 기록한 다음 새로운 교정 훈련 세트 구축을 진행하세요.
각 원본 훈련 예제에 대해 정리문, 증명 생성 모델에서 생성된 (잘못된) 후보 증명 및 해당 오류 메시지를 연결하여 새 훈련 예제의 입력 시퀀스를 얻습니다.
컨텍스트 추가
정리 문 앞에 이론 파일의 줄을 추가 컨텍스트로 추가합니다. 예를 들어 아래 그림은 다음과 같습니다. Baldur의 컨텍스트가 있는 증명 생성 모델은 이 추가 정보를 활용할 수 있습니다. fun_sum_commute 정리 문에 나타나는 문자열은 이 맥락에서 다시 나타나므로 문자열 주변의 추가 정보는 모델이 더 나은 예측을 하는 데 도움이 될 수 있습니다.
컨텍스트는 진술(정리, 정의, 증명) 또는 자연어 주석이 될 수 있습니다.
LLM의 사용 가능한 입력 길이를 활용하기 위해 연구원들은 먼저 동일한 이론 파일에서 최대 50개의 문장을 추가했습니다.
훈련 중에 이러한 모든 명령문은 먼저 토큰화된 다음 입력 길이에 맞게 시퀀스의 왼쪽이 잘립니다.
위 그림은 컨텍스트 및 컨텍스트 프리 생성 모델에 대한 증명 성공률과 증명 시도 횟수 간의 관계를 보여줍니다. 컨텍스트가 있는 증명 생성 모델이 일반 생성 모델보다 지속적으로 성능이 우수하다는 것을 알 수 있습니다.
위 그래프는 다양한 크기와 온도의 모델에 대한 추론 비용에 대한 검증된 정리의 비율을 보여줍니다.
생성된 모델의 증명 성공률, 8B 모델과 62B 모델의 컨텍스트, 증명 시도 횟수의 관계를 확인할 수 있습니다.
컨텍스트가 있는 62B 모델은 생성 모델이 컨텍스트가 있는 8B 모델보다 성능이 우수하다는 것을 증명합니다.
그러나 저자는 이러한 실험에 드는 비용이 높고 하이퍼 매개변수를 조정할 수 없기 때문에 62B 모델이 최적화되면 더 나은 성능을 발휘할 수 있다고 여기서 강조합니다.
위 내용은 테렌스 타오(Terence Tao)가 그것을 보고 전문가라고 불렀습니다! Google 및 기타 업체에서는 LLM을 사용하여 정리를 자동으로 증명했으며, 맥락이 더 완전할수록 증명이 더 좋아졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.

cryptocurrency 교환 선택에 대한 제안 : 1. 유동성 요구 사항의 경우 우선 순위는 순서 깊이와 강한 변동성 저항으로 인해 Binance, Gate.io 또는 Okx입니다. 2. 규정 준수 및 보안, 코인베이스, 크라켄 및 쌍둥이 자리는 엄격한 규제 승인을 받았습니다. 3. Kucoin의 소프트 스테이 킹 및 Bybit의 파생 설계 혁신적인 기능은 고급 사용자에게 적합합니다.

초보자에게 적합한 cryptocurrency 데이터 플랫폼에는 CoinmarketCap 및 비소 트럼펫이 포함됩니다. 1. CoinmarketCap은 초보자 및 기본 분석 요구에 대한 글로벌 실시간 가격, 시장 가치 및 거래량 순위를 제공합니다. 2. 비소 인용문은 중국 사용자가 저 위험 잠재적 프로젝트를 신속하게 선별하는 데 적합한 중국 친화적 인 인터페이스를 제공합니다.

휘발성 cryptocurrency 시장에서 투자자들은 대중적인 통화를 넘어서는 대안을 찾고 있습니다. Solana (Sol), Cardano (ADA), XRP 및 Dogecoin (DOGE)과 같은 잘 알려진 암호 화폐도 시장 감정, 규제 불확실성 및 확장 성과 같은 도전에 직면 해 있습니다. 그러나 새로운 신흥 프로젝트 인 Rexasfinance (RXS)가 떠오르고 있습니다. 유명 인사 효과 나 과대 광고에 의존하지는 않지만 RWA (Ralld Assets)와 블록 체인 기술을 결합하여 투자자에게 혁신적인 투자 방법을 제공하는 데 중점을 둡니다. 이 전략은 2025 년의 가장 성공적인 프로젝트 중 하나가되기를 희망합니다. Rexasfi
