우편물 분류 초기, Six Triple Eight는 반송된 편지가 유효하지 않은 것으로 표시되는 문제에 직면했습니다. 이는 엄청난 양의 메일을 처리한 경험이 부족하여 발생하는 오류로 인해 발생하는 경우가 많았습니다. 시간이 지남에 따라 이름을 연대 및 계급과 일치시키는 혁신적인 색인 시스템을 개발하여 효율성과 정확성을 크게 향상시켰습니다.
마찬가지로 OpenAI의 LLM(대형 언어 모델)을 사용하여 작업할 때 필수 입력 형식을 이해하고 준수하는 것이 중요합니다. 부적절하게 색인화된 메일로 인해 편지가 반송되는 것처럼 형식이 잘못된 데이터는 미세 조정 효과가 없고 최적이 아닌 결과를 초래할 수 있습니다. OpenAI는 JSONL(JSON Lines) 형식을 미세 조정을 위한 조직적 프레임워크로 사용하여 데이터가 구조화되고 처리 준비가 되었는지 확인합니다.
왜 JSONL 형식인가요?
JSONL 형식을 사용하면 데이터를 줄 단위 구조로 저장할 수 있습니다. 여기서 각 줄은 JSON 형식의 단일 레코드를 나타냅니다. 이 구조는 작고 읽기 쉬우며 OpenAI의 미세 조정 API와 호환됩니다. 올바른 형식 지정은 다음을 보장합니다.
정확성: 모델이 의도한 대로 데이터를 처리하여 오류를 방지합니다.
효율성: 일관된 구조로 미세 조정이 원활하게 이루어집니다.
확장성: 복잡한 구성 없이 대규모 데이터 세트를 효과적으로 관리할 수 있습니다.
미세 조정을 위한 JSONL 형식의 예
OpenAI 모델을 미세 조정하기 위해 일반적으로 JSONL에서 데이터 형식을 지정하는 방법은 다음과 같습니다.
openai_format = { "message":[ {"role":"system","content":system}, {"role":"user","content":""}, {"role":"assistant","content":""} ] }
각 기록에는 세 가지 핵심 구성요소가 있습니다.
시스템: 프롬프트 필수
사용자: 샘플 데이터입니다.
어시스턴트: 데이터 레이블
변환하자
import json df = pd.read_csv('/content/dataset/train.csv', on_bad_lines='skip') final_df = df.head(150) total_tokens = cal_num_tokens_from_df(final_df,'gpt-3.5-turbo') print(f"total {total_tokens}") system ="You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics" with open('dataset/train.jsonl','w') as f: for _,row in final_df.iterrows(): openai_format = { "message":[ {"role":"system","content":system}, {"role":"user","content":row['text']}, {"role":"assistant","content":row['label']} ] } json.dump(openai_format,f) f.write('\n')
샘플 응답
{"message": [{"role": "system", "content": "You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics"}, {"role": "user", "content": "qantas considers offshore option australian airline qantas could transfer as"}, {"role": "assistant", "content": "business"}]}
육삼팔의 교훈
Six Triple Eight의 메일 처리 초기 과제는 준비와 학습의 중요성을 강조합니다. JSONL 형식을 준수하여 미세 조정을 통해 효과적이고 정확한 결과를 얻을 수 있는 것과 마찬가지로 색인 혁신을 통해 레코드가 올바르게 일치하고 전달될 수 있었습니다.
LLM을 미세 조정할 때 데이터를 올바른 형식으로 이해하고 구조화하는 것은 Six Triple Eight가 메일 분류 기술을 익히는 여정만큼 중요합니다. 역사와 기술을 모두 학습함으로써 복잡한 물류 문제를 해결하는 데 있어 놀라운 결과를 얻을 수 있습니다.
위 내용은 OpenAI JSONL 형식 이해: 기록 정리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!