OpenAI API와 함께 텍스트 임베드 활용 : 실용 가이드-일체 포함-php.cn

OpenAI API와 함께 텍스트 임베드 활용 : 실용 가이드

Lisa Kudrow

풀어 주다： 2025-03-11 09:19:11

원래의

214명이 탐색했습니다.

텍스트 임베딩은 NLP (Natural Language Processing)의 초석으로, 단어 나 문구가 실수의 밀도가 높은 벡터가되는 텍스트의 수치 표현을 제공합니다. 이를 통해 기계는 의미 론적 의미와 단어 간의 관계를 이해하여 인간 언어를 처리하는 능력을 크게 향상시킬 수 있습니다.

이러한 임베딩은 텍스트 분류, 정보 검색 및 시맨틱 유사성 탐지와 같은 작업에 필수적입니다. OpenAI는 텍스트 내에서 상황에 맞는 의미와 연관성을 포착하는 데있어 GPT 시리즈의 강점을 활용하여 ADA V2 모델을 제작할 것을 권장합니다.

진행하기 전에 OpenAI의 API 및 openai Python 패키지에 대한 친숙 함이 가정됩니다 ( "Python의 OpenAI API를 통해"GPT-3.5 및 GPT-4 사용 "참조). 클러스터링, 특히 K- 평균에 대한 이해도 도움이됩니다 ( "파이썬에서 Scikit-Learn을 사용한 K-Means 클러스터 소개").

텍스트 임베딩의 응용 프로그램 :

텍스트 임베딩은 다음을 포함하여 수많은 영역에서 응용 프로그램을 찾습니다.

텍스트 분류 : 감정 분석 또는 주제 식별을위한 정확한 모델 구축.
정보 검색 : 특정 쿼리와 관련된 정보 검색, 검색 엔진 기능을 모방합니다.
시맨틱 유사성 검출 : 텍스트 스 니펫 사이의 의미 론적 유사성을 식별하고 정량화합니다.
권장 시스템 : 텍스트 상호 작용에서 사용자 선호도를 이해하여 추천 품질 향상.
텍스트 생성 : 보다 일관되고 상황에 맞는 텍스트를 생성합니다.
기계 번역 : 교차 의미 론적 의미를 캡처하여 기계 번역 품질 향상.

설정 및 설치 :

다음과 같은 파이썬 패키지가 필요합니다 : os , openai , scipy.spatial.distance , sklearn.cluster.KMeans 및 umap.UMAP . 다음을 사용하여 설치하십시오.

 PIP 설치 -U Openai Scipy Plotly-Express Scikit-Learn Umap-Learn

로그인 후 복사

필요한 라이브러리 가져 오기 :

 OS 가져 오기
OpenAi 가져 오기
scipy에서 공간 가져 오기 거리
px로 plotly.express를 가져옵니다
Sklearn.Cluster import kmeans에서
UMAP 가져 오기 UMAP에서

로그인 후 복사

OpenAI API 키 구성 :

 Openai.api_key = "<your_api_key_here> "</your_api_key_here>

로그인 후 복사

(교체해야합니다<your_api_key_here></your_api_key_here> 실제 키로.)

임베딩 생성 :

이 헬퍼 함수는 text-embedding-ada-002 모델을 사용하여 임베딩을 생성합니다.

 def get_embedding (text_to_embed) :
    응답 = openai.embedding.create (
        Model = "Text-embedding-adada-002",
        입력 = [text_to_embed]
    ))
    Embedding = response [ "data"] [0] [ "Embedding"]
    반환 임베딩

로그인 후 복사

데이터 세트 및 분석 :

이 예제는 Amazon Musical Instrument Review 데이터 세트 (Kaggle 또는 저자의 Github에서 사용할 수 있음)를 사용합니다. 효율성을 위해 100 개의 리뷰 샘플이 사용됩니다.

 팬더를 PD로 가져옵니다

data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv"
reviace_df = pd.read_csv (data_url) [[ 'reviewText']]
reviace_df = review_df.sample (100)
reviace_df [ "embedding"] = reviace_df [ "reviewText"]. Astype (str) .apply (get_embedding)
reviace_df.reset_index (drop = true, inplace = true)

로그인 후 복사

시맨틱 유사성 :

scipy.spatial.distance.pdist() 사용하여 계산 된 유클리드 거리는 검토 임베딩 사이의 유사성을 측정합니다. 더 작은 거리는 더 큰 유사성을 나타냅니다.

클러스터 분석 (k-means) :

K- 평균 클러스터링 그룹 유사한 리뷰. 여기에는 세 개의 클러스터가 사용됩니다.

 kmeans = kmeans (n_clusters = 3)
kmeans.fit (reviace_df [ "Imbedding"]. tolist ())

로그인 후 복사

치수 감소 (UMAP) :

UMAP는 시각화를 위해 임베딩 치수를 2로 줄입니다.

 reture = umap ()
embeddings_2d = retayer.fit_transform (reviace_df [ "Embedding"]. tolist ())

로그인 후 복사

심상:

산점도 플롯은 클러스터를 시각화합니다.

 그림 = px.scatter (x = embeddings_2d [:, 0], y = embeddings_2d [:, 1], color = kmeans.labels_)
그림 쇼 ()

로그인 후 복사

OpenAI API를 사용하여 텍스트 임베드 활용 : 실용 가이드

추가 탐사 :

고급 학습의 경우 미세 조정 GPT-3 및 OpenAI API 치트 시트에 대한 DataCamp 리소스를 탐색하십시오.

코드 예제는보다 간결하고 체계적인 방식으로 표시되어 가독성과 이해를 향상시킵니다. 이미지는 요청 된대로 포함됩니다.

위 내용은 OpenAI API와 함께 텍스트 임베드 활용 : 실용 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!