Humaneval : LLM 코드 생성 기능을 평가하기위한 벤치 마크-일체 포함-php.cn

Humaneval : LLM 코드 생성 기능을 평가하기위한 벤치 마크

Joseph Gordon-Levitt

풀어 주다： 2025-03-02 09:47:11

원래의

886명이 탐색했습니다.

Humaneval : Pass@k

로 코드 생성 평가 이 튜토리얼은

메트릭에 중점을 둔 LLM (Lange Language Model) 코드 생성 기능을 평가하기위한 개방형 벤치 마크 인 HumaneVal을 탐구합니다. 우리는 Hugging Face 생태계를 사용하여 164 개의 Python 문제에 대한

모델을 평가합니다. 이것은 전통적인 텍스트 유사성 지표와 대조되는 실용적이고 기능적 정확성 평가를 제공합니다. pass@k codeparrot-small 저자에 의한 이미지

패스@k

이해 Humaneval은 기능적 정확성 접근법을 사용하여 최소한 생성 된 코드 샘플 중 하나가 문제를 올바르게 해결할 확률을 측정합니다. 이것은 간단한 텍스트 매칭, 실제 개발자 테스트를 반영하는 것보다 더 관련성이 있습니다. HumanEval: A Benchmark for Evaluating LLM Code Generation Capabilities 공식은 1 -c (n -c, k)/c (n, k) 입니다

여기서 :

: 총 생성 된 샘플. : 올바른 샘플의 수. : 고려 된 상단 샘플의 수.

공식은 all

k 샘플이 잘못되었을 가능성을 계산 한 다음 적어도 하나의 올바른 샘플의 확률을 얻기 위해 이것을 1에서 빼냅니다. 점수가 높을수록 코드 생성 성능이 향상됩니다. 리더 보드는 종종 및 포옹 얼굴 가있는 Humaneval 평가 이 섹션에서는 Hugging Face의 라이브러리를 사용한 평가 프로세스를 자세히 설명합니다. 더 빠른 평가를 위해 더 작은 모델을 사용하겠습니다 1. 설정 :

필요한 라이브러리를 설치하십시오 : pass@k 설정 환경 변수 설정 :

2. 로드 데이터 세트 및 메트릭 :

데이터 세트와

3. 로딩 모델 및 토큰 화기 : n
c 4. 토큰 화기 조정 : 필요한 경우 토 케이저에 를 갖고 모델 임베지를 조정하십시오.
5. 코드 생성 : k 문제 당 5 개의 코드 샘플을 생성합니다 (총 164 개의 문제) :

6. 컴퓨팅 패스@k :

compute 및 :

pip install evaluate

로그인 후 복사

출력은 및

점수를 표시하여 모델의 성능을 나타냅니다. 코드 생성의 확률 론적 특성으로 인해 결과가 달라질 수 있습니다. 이러한 결과를 GPT-4와 같은보다 강력한 모델의 결과와 비교하면 모델의 기능에 대한 컨텍스트를 제공합니다. 추가 분석은 다른 과다 투파 미터를 탐색하거나보다 정교한 코드 생성 기술을 사용하는 것이 포함될 수 있습니다.

위 내용은 Humaneval : LLM 코드 생성 기능을 평가하기위한 벤치 마크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!