Python에서 OpenAi GPT 모델 비용 관리는 라이브러리로 단순화됩니다. 이 도구는 텍스트를 텍스트 처리에 사용하는 기본 단위 인 토큰으로 텍스트를 변환하여 API 호출 비용을 추정합니다. 이 기사는 토큰 화, 바이트 쌍 인코딩 (BPE) 및 비용 예측을 위해 를 사용하는 것을 설명합니다.
tiktoken
tiktoken
AI의 자연 언어를 번역하는 초기 단계 인 토큰 화는 텍스트를 작은 단위 (토큰)로 나눕니다. 이것들은 방법에 따라 단어, 단어의 일부 또는 문자 일 수 있습니다. 효과적인 토큰 화는 정확한 해석, 일관된 응답 및 비용 추정에 중요합니다.
바이트 쌍 인코딩 (bpe)
GPT 모델을위한 두드러진 토큰 화 방법 인 bpe, 문자 수준 및 단어 수준 접근법의 균형. 그것은 가장 빈번한 바이트 (또는 문자) 쌍을 새로운 토큰으로 병합하여 대상 어휘 크기에 도달 할 때까지 계속됩니다.
.
BPE의 중요성은 지나치게 큰 어휘가 필요하지 않고 희귀 단어와 신학을 포함한 다양한 어휘를 처리하는 능력에 있습니다. 드문 단어를 하위 단어 나 문자로 나누어서 모델이 알려진 구성 요소의 의미를 유추 할 수있게함으로써이를 달성합니다.
키 BPE 특성 :
가역성 :
원본 텍스트는 토큰에서 완벽하게 재구성 할 수 있습니다.
다목적 성 :
훈련 중에 보이지 않는 텍스트를 처리합니다
압축 : 토큰 화 된 버전은 일반적으로 원본보다 짧습니다. 각 토큰은 약 4 바이트를 나타냅니다
서브 워드 인식 : 공통 단어 부분 (예 : "ing")을 식별하고 활용하여 문법적 이해를 향상시킵니다.
: OpenAi의 빠른 BPE 알고리즘
는 OpenAi의 고속 BPE 알고리즘입니다 (GitHub에 따르면 비슷한 오픈 소스 대안보다 3-6 배 빠릅니다). 오픈 소스 버전은 Python을 포함한 다양한 라이브러리에서 제공됩니다.
라이브러리는 여러 모델에 맞게 여러 인코딩 방법을 지원합니다.
Python 에서 GPT 비용을 추정합니다
텍스트를 토큰으로 인코딩하여 API가 호출되기 전에 비용 추정을 가능하게합니다.
1 단계 : 설치
2 단계 : 인코딩을로드
사용 또는
!pip install openai tiktoken
로그인 후 복사
3 단계 : 텍스트를 인코딩
OpenAI의 가격 (예 : GPT-4의 $ 10/1m 입력 토큰)과 결합 된 토큰 수는 비용 추정치를 제공합니다. 's
메소드는 프로세스를 되돌립니다
encoding = tiktoken.get_encoding("cl100k_base") # Or: encoding = tiktoken.encoding_for_model("gpt-4")
로그인 후 복사
tiktoken
결론
decode
는 GPT 비용 추정에서 추측을 제거합니다. 토큰 화 및 BPE를 이해하고 를 사용하면 GPT API 호출 비용을 정확하게 예측하고 관리하여 사용 및 예산을 최적화 할 수 있습니다. 임베딩 및 OpenAI API 사용으로 더 깊은 다이빙을하려면 DataCAMP의 리소스 (원본에 제공된 링크)를 탐색하십시오.
위 내용은 Python의 Tiktoken 라이브러리를 사용하여 GPT 비용 추정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!