목차
OpenGraph 모델
실험 검증 및 성능 분석
그래프 Tokenizer 디자인의 영향에 대한 연구
데이터 생성 기술의 영향
Transformer 샘플링 기술 연구
연구 결론
기술 주변기기 일체 포함 HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파

HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파

May 09, 2024 pm 12:01 PM
git 일체 포함 기본 모델

그래프 학습 분야의 데이터 부족 문제가 새로운 트릭으로 해결되었습니다!

OpenGraph는 다양한 그래프 데이터세트에 대한 제로샷 예측을 위해 특별히 설계된 기본 그래프 기반 모델입니다.

홍콩 빅데이터 인텔리전스 연구소 소장 Chao Huang 팀도 새로운 작업에 대한 모델의 적응성을 향상시키기 위해 모델에 대한 개선 및 조정 기술을 제안했습니다.

현재 이 작품은 GitHub에 업로드되어 있습니다.

데이터 증대 기술을 소개합니다. 이 작업에서는 주로 그래픽 모델의 일반화 능력을 향상시키는 심층 전략을 탐구합니다(특히 훈련 데이터와 테스트 데이터 간에 상당한 차이가 있는 경우).

OpenGraph는 새로운 데이터의 제로 샘플 예측을 달성하기 위해 전파 예측을 통해 순방향 전파를 수행하는 일반 그래프 구조 모델입니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

목표를 달성하기 위해 팀은 다음 3가지 과제를 해결했습니다.

  • 데이터 세트 간의 토큰 차이점: 서로 다른 그래프 데이터 세트에는 서로 다른 그래프 토큰 세트가 있는 경우가 많으며 이를 수행하기 위한 모델이 필요합니다. 데이터 세트를 교차할 수 있습니다. 예측을 합니다.
  • 노드 관계 모델링: 일반 그래프 모델을 구축할 때 모델의 확장성 및 효율성과 관련된 노드 관계를 효과적으로 모델링하는 것이 중요합니다.
  • 데이터 희소성: 데이터 수집 문제에 직면하여 대규모 언어 모델을 통해 데이터 향상을 수행하여 복잡한 그래프 구조 관계를 시뮬레이션하고 모델 학습 품질을 향상시킵니다.

OpenGraph는 토폴로지 인식 BERT Tokenizer 및 앵커 기반 그래프 변환기와 같은 일련의 혁신적인 방법을 통해 위의 문제를 효과적으로 해결합니다. 여러 데이터 세트에 대한 테스트 결과는 모델의 뛰어난 일반화 능력을 입증하며 모델의 색상 일반화 능력을 효과적으로 평가할 수 있습니다.

OpenGraph 모델

OpenGraph 모델 아키텍처는 주로 3가지 핵심 부분으로 구성됩니다.

  • Unified graph Tokenizer.
  • 확장 가능한 그래프 변환기.
  • 대형 언어 모델 기반 지식 증류 기술.

먼저 통합 그래프 Tokenizer에 대해 이야기해 보겠습니다.

다양한 데이터 세트의 노드와 에지 차이에 적응하기 위해 팀은 그래프 데이터를 토큰 시퀀스로 정규화하는 통합 그래프 토크나이저를 개발했습니다.

이 프로세스에는 고차 인접 행렬 평활화 및 토폴로지 인식 매핑이 포함됩니다.

고차 인접 행렬 평활화는 인접 행렬의 고차 전력을 사용하여 희소 연결 문제를 해결하는 반면, 토폴로지 인식 매핑은 인접 행렬을 노드 시퀀스로 변환하고 빠른 특이값 분해(SVD)를 사용하여 최소화합니다. 정보 손실, 더 많은 그래프 구조 정보 유지.

두 번째는 확장 가능한 그래프 트랜스포머입니다.

토큰화 후 OpenGraph는 Transformer 아키텍처를 사용하여 노드 간의 종속성을 시뮬레이션하고 주로 다음 기술을 사용하여 모델 성능과 효율성을 최적화합니다.

첫째, 토큰 시퀀스 샘플링은 샘플링 기술을 사용하여 모델에 필요한 관계 수를 줄입니다. 처리함으로써 시간과 공간의 복잡성을 줄입니다.

두 번째는 앵커 샘플링의 Self-Attention 메커니즘입니다. 이 방법은 학습 노드 간의 단계별 정보 전달을 통해 계산 복잡도를 더욱 줄이고 모델의 훈련 효율성과 안정성을 효과적으로 향상시킵니다.

마지막 단계는 대규모 언어 모델의 지식 증류입니다.

일반 그래프 모델을 훈련할 때 직면하는 데이터 개인 정보 보호 및 카테고리 다양성 문제를 해결하기 위해 팀에서는 LLM(대형 언어 모델)의 지식과 이해 기능에서 영감을 얻었으며 LLM을 사용하여 다양한 그래프 구조 데이터를 생성했습니다.

이 데이터 향상 메커니즘은 실제 그래프의 특성을 시뮬레이션하여 데이터의 품질과 실용성을 효과적으로 향상시킵니다.

팀은 먼저 특정 애플리케이션에 적합한 노드 세트를 생성하며, 각 노드에는 에지 생성을 위한 텍스트 설명이 있습니다.

전자상거래 플랫폼과 같은 대규모 노드 집합에 직면했을 때 연구자들은 노드를 보다 구체적인 하위 범주로 세분화하여 이를 처리합니다.

예를 들어 "전자 제품"부터 특정 "휴대폰", "노트북" 등에 이르기까지 실제 인스턴스에 가깝도록 노드가 다듬어질 때까지 이 프로세스가 반복됩니다.

프롬프트 트리 알고리즘은 트리 구조에 따라 노드를 세분화하고 더 자세한 엔터티를 생성합니다.

"제품"과 같은 일반적인 카테고리에서 시작하여 점차적으로 특정 하위 카테고리로 세분화되어 최종적으로 노드 트리를 형성합니다.

에지 생성의 경우 연구자들은 Gibbs 샘플링을 사용하여 생성된 노드 집합을 기반으로 에지를 형성합니다.

계산 부담을 줄이기 위해 LLM을 통해 가능한 모든 가장자리를 직접 탐색하지 않고 먼저 LLM을 사용하여 노드 간의 텍스트 유사성을 계산한 다음 간단한 알고리즘을 사용하여 노드 관계를 결정합니다.

이를 바탕으로 팀은 몇 가지 기술적 조정을 도입했습니다.

  • 동적 확률 정규화: 동적 조정을 통해 유사성을 샘플링에 더 적합한 확률 범위로 매핑합니다.
  • 노드 지역성: 지역성 개념을 도입하고 노드의 로컬 하위 집합 간의 연결만 설정하여 실제 세계에서 네트워크 지역성을 시뮬레이션합니다.
  • 그래프 토폴로지 패턴 주입: 그래프 컨벌루션 네트워크를 사용하여 노드 표현을 수정하여 그래프 구조 특성에 더 잘 적응하고 분포 편차를 줄입니다.

위 단계를 통해 생성된 그래프 데이터가 풍부하고 다양할 뿐만 아니라 실제 세계의 연결 패턴 및 구조적 특성에 가깝도록 보장합니다.

실험 검증 및 성능 분석

이 실험은 LLM에서만 생성된 데이터 세트를 사용하여 OpenGraph 모델을 훈련하고 노드 분류 및 링크 예측 작업을 다루는 다양한 실제 시나리오 데이터 세트에서 테스트하는 데 중점을 두고 있다는 점에 유의해야 합니다.

실험 설계는 다음과 같습니다.

제로 샘플 설정.

보이지 않는 데이터에 대한 OpenGraph의 성능을 평가하기 위해 생성된 훈련 세트에서 모델을 훈련한 다음 완전히 다른 실제 테스트 세트에서 평가합니다. 이는 교육 및 테스트 데이터가 노드, 가장자리 및 기능에서 겹치지 않도록 보장합니다.

샘플 설정이 적습니다.

다양한 방법이 제로샷 예측을 효과적으로 수행하기 어렵다는 점을 고려하여 사전 훈련 데이터를 기준으로 기준 모델을 사전 훈련한 후 k-샷 샘플을 사용하여 미세 조정하는 방법을 소개합니다. .

2개 작업과 8개 테스트 세트에 대한 결과는 OpenGraph가 제로 샷 예측에서 기존 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.

또한 기존의 사전 훈련된 모델은 교차 데이터 세트 작업에서 처음부터 훈련된 모델보다 성능이 떨어지는 경우가 있습니다.

그래프 Tokenizer 디자인의 영향에 대한 연구

동시에 팀에서는 Graph Tokenizer 디자인이 모델 성능에 어떤 영향을 미치는지 조사했습니다.

우선, 인접 행렬 스무딩(스무딩 차수 0)을 수행하지 않으면 성능이 크게 저하된다는 것이 실험을 통해 밝혀졌는데, 이는 스무딩의 필요성을 나타냅니다.

그런 다음 연구원들은 여러 가지 간단한 토폴로지 인식 대안을 시도했습니다. 즉, 데이터세트 전체에 걸쳐 원-핫 인코딩된 ID, 무작위 매핑, 노드 등급 기반 표현 등이 있습니다.

실험 결과에 따르면 이러한 대안의 성능은 이상적이지 않습니다.

구체적으로, 데이터 세트 전체에 걸친 ID 표현은 최악이고, 학위 기반 표현도 성능이 좋지 않은 반면, 무작위 매핑은 약간 더 좋지만 최적화된 토폴로지 인식 매핑에 비해 상당한 성능 격차가 있습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

데이터 생성 기술의 영향

팀에서는 LLM 기반 지식 증류 방법을 사용하여 생성된 데이터 세트와 여러 실제 데이터 세트를 포함하여 다양한 사전 훈련 데이터 세트가 OpenGraph 성능에 미치는 영향을 조사했습니다.

실험에서 비교한 사전 학습 데이터 세트에는 팀 생성 방식에서 특정 기술을 제거한 데이터 세트, 실제 데이터 세트 2개 (Yelp2018 및 Gowalla) 테스트 데이터 세트와 관련이 없는 데이터 1개 테스트 데이터로 설정 유사한 실제 데이터 세트 (ML-10M) 을 설정합니다.

실험 결과 생성된 데이터 세트는 모든 테스트 세트에서 좋은 성능을 보였으며, 3세대 기술을 제거하면 성능에 큰 영향을 미쳐 이러한 기술의 효율성을 검증했습니다.

테스트 세트와 관련이 없는 실제 데이터 세트 (예: Yelp 및 Gowalla) 로 훈련할 때 성능이 저하되는 경우가 있는데, 이는 서로 다른 데이터 세트 간의 분포 차이로 인해 발생할 수 있습니다.

ML-10M 데이터 세트는 ML-1M 및 ML-10M 과 같은 유사한 테스트 데이터 세트 에서 최고의 성능을 달성하여 학습 데이터 세트와 테스트 데이터 세트 간의 유사성의 중요성을 강조합니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

Transformer 샘플링 기술 연구

실험의 이 부분에서 연구팀은 그래프 Transformer 모듈에 사용된 두 가지 샘플링 기술인

토큰 시퀀스 샘플링(Seq)과 앵커 샘플링(Anc)을 탐색했습니다.

그들은 모델 성능에 대한 구체적인 영향을 평가하기 위해 이 두 가지 샘플링 방법에 대한 자세한 절제 실험을 수행했습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

실험 결과에 따르면 토큰 시퀀스 샘플링이든 앵커 포인트 샘플링이든 훈련 및 테스트 단계에서 모델의 공간 및 시간 복잡성을 효과적으로 줄일 수 있습니다. 이는 대규모 그래프 데이터를 처리하는 데 특히 중요하며 효율성을 크게 향상시킬 수 있습니다.

성능 관점에서 토큰 시퀀스 샘플링은 모델의 전반적인 성능에 긍정적인 영향을 미칩니다. 이 샘플링 전략은 주요 토큰을 선택하여 그래프 표현을 최적화함으로써 복잡한 그래프 구조를 처리하는 모델의 능력을 향상시킵니다.

반대로 ddi 데이터 세트에 대한 실험에서는 앵커 샘플링이 모델 성능에 부정적인 영향을 미칠 수 있음을 보여줍니다. 앵커 샘플링은 특정 노드를 앵커 포인트로 선택하여 그래프 구조를 단순화하지만, 이 방법은 일부 주요 그래프 구조 정보를 무시하여 모델의 정확도에 영향을 줄 수 있습니다.

요약하자면 두 샘플링 기법 모두 장점이 있지만 실제 적용에서는 특정 데이터 세트 및 작업 요구 사항을 기반으로 적절한 샘플링 전략을 신중하게 선택해야 합니다.

연구 결론

이 연구의 목표는 다양한 그래프 구조의 복잡한 토폴로지 패턴을 정확하게 식별하고 구문 분석할 수 있는 적응성이 뛰어난 프레임워크를 개발하는 것입니다.

연구원들은 제안된 모델의 기능을 완전히 활용하여 다양한 다운스트림 애플리케이션을 포함한 제로샷 그래프 학습 작업에서 모델의 일반화 능력을 크게 향상시키는 것을 목표로 합니다.

이 모델은 OpenGraph의 효율성과 견고성을 향상시키기 위해 확장 가능한 그래프 Transformer 아키텍처와 LLM 강화 데이터 증대 메커니즘을 지원하여 구축되었습니다.

팀은 여러 표준 데이터 세트에 대한 광범위한 테스트를 통해 모델의 탁월한 일반화 성능을 입증했습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

그래프 기반 모델을 구축하려는 초기 시도로서 향후 팀의 작업은 시끄러운 연결을 자동으로 식별하고 반사실적 학습을 수행하는 것을 포함하여 프레임워크의 자동화 기능을 향상시키는 데 중점을 둘 것으로 이해됩니다.

동시에 다양한 그래프 구조의 공통적이고 전달 가능한 패턴을 학습하고 추출하여 모델의 적용 범위와 효과를 더욱 홍보할 계획입니다.

참고링크:

[1] 논문: https://arxiv.org/pdf/2403.01121.pdf.

[2] 소스 코드 라이브러리: https://github.com/HKUDS/OpenGraph.

위 내용은 HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? Apr 02, 2025 pm 04:12 PM

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

해외 버전의 배송 지역 데이터를 얻는 방법은 무엇입니까? 기성품 리소스는 무엇입니까? 해외 버전의 배송 지역 데이터를 얻는 방법은 무엇입니까? 기성품 리소스는 무엇입니까? Apr 01, 2025 am 08:15 AM

질문 설명 : 해외 버전의 배송 지역 데이터를 얻는 방법은 무엇입니까? 기성품 자원이 있습니까? 국경 간 전자 상거래 또는 세계화 된 비즈니스에서 정확하게 ...

Binance 런치 풀 란 무엇입니까? Binance 런치 풀에 참여하는 방법은 무엇입니까? Binance 런치 풀 란 무엇입니까? Binance 런치 풀에 참여하는 방법은 무엇입니까? Mar 05, 2025 pm 03:06 PM

BINANCE LANCHPOOL 심층 분석 : 고수익 마이닝 가이드 및 바이오 프로젝트에 대한 자세한 설명은 Binance LaunchPool에 대한 심층적 인 토론을 수행하고 참여 방법을 자세히 설명하며 최신 프로젝트 Bio Coin (BIOL)을 소개하는 데 집중할 것입니다. Binance는 세계 최대의 cryptocurrency 거래소로서 LaunchPool과 함께 고품질 프로젝트를 선택하여 투자자에게 쉬운 광업과 새로운 토큰을 얻을 수있는 기회를 제공했습니다. Binance 런치 풀 란 무엇입니까? Binance Launchpool은 지정된 통화를 맹세하여 무료로 새로운 토큰을 얻는 플랫폼입니다. 이는 주식 시장의 새로운 주식 가입과 유사하지만 참가자는 적고 경쟁이 적고 소규모 투자도 높은 수익을 얻을 수 있습니다.

Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Apr 04, 2025 pm 11:54 PM

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

DeepSeek 릴리스 V3/R1 이론 일일 소득, 545%의 이익률 DeepSeek 릴리스 V3/R1 이론 일일 소득, 545%의 이익률 Mar 12, 2025 pm 02:18 PM

최근 인공 지능 추론 시스템 DeepSeek은 V3/R1 추론 시스템의 주요 비밀을 종합적으로 드러낸 기사를 발표했습니다. 이 기사는 DeepSeek의 이론 비용 및 이익 마진과 같은 주요 정보를 처음으로 공개했습니다. 보고서에 따르면 DeepSeekv3 및 R1의 모든 서비스는 H800GPU를 사용하고 서비스 효과를 보장하기 위해 교육과 동일한 정확도를 채택합니다. 동시에 DeepSeek은 하드웨어 활용을 극대화하기 위해 밤새 자료 리소스 할당을 인식합니다. 통계에 따르면 GPU 임대 비용이 시간당 USD 2라고 가정하면 하루 동안의 총 비용은 87,072 달러입니다. 모든 토큰이 DeepSeekr1의 가격에 따라 계산되면, 하루의 이론적 총 수입은 56,202입니다.

시각적 향상 미세 조정! DeepSeek R1 기술 시각적 향상 미세 조정! DeepSeek R1 기술 Mar 12, 2025 pm 01:12 PM

큰 권장 사항 : Visual-RFT- 시각적 언어 모델을 강화하기위한 시각적 향상 및 미세 조정 오픈 소스 프로젝트! AIXIV 칼럼은 세계 최고의 AI 연구에 계속 중점을두고 있으며 2,000 개 이상의 학업 및 기술 기사를 발표했습니다. 뛰어난 업적을 공유하는 데 오신 것을 환영합니다! 제출 이메일 : liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.comvisual-rft (VisualReinforcementfine-Tuning) 프로젝트는 시각적 언어 빅 모델 (LVLM)에 기반한 강화 학습 및 강화 미세 조정 (RFT) 패러다임을 성공적으로 적용했습니다.

See all articles