연합 학습은 머신러닝에서 매우 뜨거운 분야로, 데이터를 전송하지 않고 여러 당사자가 모델을 공동으로 훈련하는 것을 말합니다. 연합 학습의 발전과 함께 FATE, FedML, PaddleFL, TensorFlow-Federated 등과 같은 연합 학습 시스템이 끝없이 등장하고 있습니다. 그러나 대부분의 연합 학습 시스템은 트리 모델의 연합 학습 훈련을 지원하지 않습니다. 신경망과 비교하여 트리 모델은 빠른 훈련, 강력한 해석 가능성 및 표 형식 데이터에 적합한 특성을 갖습니다. 트리 모델은 금융, 의료, 인터넷 및 광고 추천, 주식 예측 등과 같은 기타 분야에서 광범위한 응용 시나리오를 가지고 있습니다.
결정 트리의 대표적인 모델은 GBDT(Gradient Boosting Decision Tree)입니다. 하나의 트리의 예측 능력은 제한되어 있으므로 GBDT는 부스팅 방법을 통해 여러 트리를 직렬로 학습시키고, 최종적으로 각 트리를 현재 예측 값과 레이블 값의 잔차에 맞춰서 좋은 예측 효과를 얻습니다. 대표적인 GBDT 시스템으로는 XGBoost, LightGBM, CatBoost 및 ThunderGBM이 있습니다. 그중 XGBoost는 KDD 컵 챔피언십 팀에서 여러 번 사용되었습니다. 그러나 이러한 시스템 중 어느 것도 연합 학습 시나리오에서 GBDT 교육을 지원하지 않습니다. 최근 싱가포르 국립대학교와 칭화대학교 연구진은 트리 모델 훈련에 초점을 맞춘 새로운 연합 학습 시스템인 FedTree를 제안했습니다.
FedTree 시스템 소개FedTree 아키텍처 다이어그램은 그림 1에 표시되어 있으며 인터페이스, 환경, 프레임워크, 개인 정보 보호 및 모델의 총 5개 모듈이 있습니다.
그림 1: FedTree 시스템 아키텍처 다이어그램
인터페이스 : FedTree는 명령줄 인터페이스와 Python 인터페이스라는 두 가지 인터페이스를 지원합니다. 사용자는 매개변수(참가자 수, 연합 시나리오 등)만 제공하면 되며 한 줄 명령으로 훈련을 위해 FedTree를 실행할 수 있습니다. FedTree의 Python 인터페이스는 scikit-learn과 호환되며 훈련 및 예측을 위해 fit() 및 예측()을 호출할 수 있습니다.
Environment: FedTree는 단일 컴퓨터에서 연합 학습의 시뮬레이션 배포와 여러 컴퓨터에서 분산 연합 학습 배포를 지원합니다. 독립형 환경에서 FedTree는 데이터를 여러 하위 데이터 세트로 분할하는 것을 지원하며 각 하위 데이터 세트는 참가자로 훈련됩니다. 다중 시스템 환경에서 FedTree는 각 시스템을 참가자로 지원하고 시스템은 gRPC를 통해 통신합니다. 동시에 FedTree는 CPU 외에도 GPU 사용을 지원하여 훈련을 가속화합니다.
Framework: FedTree는 수평 및 수직 연합 학습 시나리오에서 GBDT 교육을 지원합니다. 수평 시나리오에서는 참가자마다 훈련 샘플이 다르고 기능 공간이 동일합니다. 수직적 시나리오에서는 참가자마다 특성 공간이 다르고 훈련 샘플이 동일합니다. 성능을 보장하기 위해 두 시나리오 모두에서 여러 당사자가 각 노드의 교육에 참여합니다. 또한 FedTree는 참가자가 트리를 병렬로 훈련한 다음 이를 집계하여 참가자 간의 통신 오버헤드를 줄이는 앙상블 학습도 지원합니다.
Privacy: 훈련 프로세스 중에 전달된 기울기가 훈련 데이터에 대한 정보를 유출할 수 있으므로 FedTree는 HE(동형 암호화) 및 보안 집계를 포함하여 기울기 정보를 더욱 보호하기 위한 다양한 개인 정보 보호 방법을 제공합니다. (SA). 동시에 FedTree는 최종 훈련 모델을 보호하기 위해 차등 개인 정보 보호를 제공합니다.
Model: FedTree는 트리 훈련을 기반으로 부스팅/배깅 방법을 통해 GBDT/랜덤 포레스트 훈련을 지원합니다. 다양한 손실 함수를 설정함으로써 FedTree에서 훈련한 모델은 분류 및 회귀를 포함한 다양한 작업을 지원합니다.
실험표 1은 전복에 대한 a9a, 유방 및 신용 및 RMSE에 대한 다양한 시스템의 AUC, FedTree의 모델 효과 및 FATE의 모든 데이터 및 SecureBoost(SBT)를 사용한 GBDT(XGBoost, ThunderGBM) 훈련을 요약합니다. . 또한 개인 정보 보호 정책 SA 및 HE는 모델 성능에 영향을 미치지 않습니다.
표 1: 서로 다른 시스템의 모델 효과 비교
표 2는 서로 다른 시스템의 각 트리의 훈련 시간(단위: 초)을 요약한 것입니다. FATE 수평 연합 학습 시나리오에서 훨씬 더 빠르며 100배 이상의 가속 비율을 달성할 수 있습니다.
표 2: 다양한 시스템의 각 나무에 대한 훈련 시간 비교
자세한 연구 내용은 FedTree 원본 논문을 참조하세요.
위 내용은 의사결정 트리를 위해 특별히 설계된 싱가포르 국립대학교와 칭화대학교는 빠르고 안전한 새로운 연합 학습 시스템을 공동으로 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!