대형 모델의 급속한 발전과 적용으로 인해 대형 모델의 핵심 기본 구성 요소인 Embedding의 중요성이 더욱 부각되고 있습니다. 한 달 전 Zhiyuan Company가 출시한 오픈 소스 상용 중국어 및 영어 의미 벡터 모델 BGE(BAAI General Embedding)는 커뮤니티에서 광범위한 관심을 끌었으며 Hugging Face 플랫폼에서 수십만 번 다운로드되었습니다. 현재 BGE는 버전 1.5를 빠르게 반복적으로 출시하고 여러 업데이트를 발표했습니다. 그 중 BGE는 처음으로 3억 개의 대규모 훈련 데이터를 오픈 소스화하여 커뮤니티에 유사한 모델을 훈련하고 이 분야의 기술 개발을 촉진하는 데 도움을 제공했습니다
이번에 공개된 MTP 데이터 세트는 총 3억 개의 중국어 및 영어 관련 텍스트 쌍으로 구성되어 있습니다. 그 중 중국어로 된 레코드가 1억 개, 영어로 된 레코드가 2억 개입니다. 데이터 소스에는 Wudao Corpora, Pile, DuReader, Sentence Transformer 및 기타 말뭉치가 포함됩니다. 필요한 샘플링, 추출 및 청소 후 획득
자세한 내용은 데이터 허브를 참조하세요: https://data.baai.ac.cn
MTP는 최대 오픈 소스 중국어-영어 관련 텍스트 쌍 데이터 세트입니다. 현재까지 중국어와 영어 의미론적 벡터 모델을 훈련하는 데 중요한 기반을 제공하고 있습니다.
개발자 커뮤니티의 반응에 따라 BGE 기능 업그레이드
커뮤니티 피드백을 바탕으로 BGE는 1.0 버전을 기반으로 더욱 최적화되어 성능을 더욱 안정적이고 탁월하게 만들었습니다. 구체적인 업그레이드 내용은 다음과 같습니다.
새 모델이 추가되었습니다. 오픈 소스 BGE-reranker 크로스 인코더 모델은 관련 텍스트를 보다 정확하게 찾을 수 있으며 중국어 및 영어 이중 언어를 지원합니다. 벡터를 출력해야 하는 벡터 모델과 달리 BGE-reranker는 텍스트 쌍 간의 유사성을 직접 출력하며 순위 정확도가 더 높으며 벡터 리콜 결과를 재정렬하고 최종 결과의 관련성을 높이는 데 사용할 수 있습니다.
링크: https://arxiv.org/pdf/2309.07597.pdf
개발자 커뮤니티에서 높은 인기 얻기
BGE는 출시 이후 대규모 모델 개발자 커뮤니티의 주목을 받았습니다. 현재 Hugging Face는 수십만 번 다운로드되었으며 LangChain, LangChain-Chachat, llama_index 등
오픈 소스와 개방성을 고수하고 협력적 혁신을 촉진하는 Zhiyuan 대형 모델 기술 개발 시스템 FlagOpen BGE는 Embedding 기술과 모델에 초점을 맞춘 새로운 FlagEmbedding 섹션을 추가했습니다. BGE는 주목받는 오픈 소스 프로젝트 중 하나입니다. FlagOpen은 대형 모델 시대의 인공지능 기술 인프라 구축에 최선을 다하고 있으며, 앞으로도 더욱 완성도 높은 대형 모델 풀스택 기술을 학계와 산업계에 지속적으로 공개해 나갈 예정입니다
위 내용은 Zhiyuan은 3억 개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!