Humaneval : Pass@k
로 코드 생성 평가 이 튜토리얼은
메트릭에 중점을 둔 LLM (Lange Language Model) 코드 생성 기능을 평가하기위한 개방형 벤치 마크 인 HumaneVal을 탐구합니다. 우리는 Hugging Face 생태계를 사용하여 164 개의 Python 문제에 대한 모델을 평가합니다. 이것은 전통적인 텍스트 유사성 지표와 대조되는 실용적이고 기능적 정확성 평가를 제공합니다.
pass@k
codeparrot-small
저자에 의한 이미지
이해
공식은 1 -c (n -c, k)/c (n, k) 입니다
: 총 생성 된 샘플. : 올바른 샘플의 수. : 고려 된 상단 샘플의 수.
k 샘플이 잘못되었을 가능성을 계산 한 다음 적어도 하나의 올바른 샘플의 확률을 얻기 위해 이것을 1에서 빼냅니다. 점수가 높을수록 코드 생성 성능이 향상됩니다. 리더 보드는 종종
2. 로드 데이터 세트 및 메트릭 :
compute 및 : 점수를 표시하여 모델의 성능을 나타냅니다. 코드 생성의 확률 론적 특성으로 인해 결과가 달라질 수 있습니다. 이러한 결과를 GPT-4와 같은보다 강력한 모델의 결과와 비교하면 모델의 기능에 대한 컨텍스트를 제공합니다. 추가 분석은 다른 과다 투파 미터를 탐색하거나보다 정교한 코드 생성 기술을 사용하는 것이 포함될 수 있습니다.pass@k
메트릭을로드하십시오
6. 컴퓨팅 패스@k : n
c
4. 토큰 화기 조정 :
k
문제 당 5 개의 코드 샘플을 생성합니다 (총 164 개의 문제) :
pip install evaluate
위 내용은 Humaneval : LLM 코드 생성 기능을 평가하기위한 벤치 마크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!