Tencent a annoncé sur son compte public « Tencent Open Source » que son projet de composant open source de science des données distribuées Fast-Causal-Inference a été rendu public sur GitHub
▲ Source de l'image Compte public « Tencent Open Source »
It est rapporté ,Il s'agit d'une bibliothèque d'analyse statistique et de calcul d'inférence causale développée par Tencent WeChat qui utilise l'interaction SQL et est basée sur la vectorisation distribuée On dit qu'elle « résout le goulot d'étranglement des performances des bibliothèques de modèles statistiques existantes (R/Python) sous ». big data , offrant des capacités d'inférence causale capables d'exécuter des dizaines de milliards de données en quelques secondes, tout en abaissant le seuil d'utilisation de modèles statistiques via le langage SQL, ce qui facilite son utilisation dans les environnements de production. plusieurs entreprises WeChat internes telles que le compte vidéo WeChat et l'application de recherche WeChat »
Introduction officielle :
Des outils d'inférence causale avancésFournir des capacités d'inférence causale pour une exécution massive de données en quelques secondes
En utilisant le moteur d'exécution OLAP vectorisé ClickHouse/StarRocks. l'expérience utilisateur peut être encore améliorée pour atteindre le niveau ultime. couche, effectuant de manière transparente l'expansion et l'optimisation SQL liées au moteur.
Fournit des capacités d'inférence causale d'opérateurs de base, d'opérateurs d'ordre élevé et d'encapsulation d'applications de couche supérieure
Prend en charge le test, OLS, Lasso, le modèle arborescent, la correspondance, le bootstrap, le DML, etc.Ce site a également appris que le responsable a déclaré que la première version prend déjà en charge les fonctionnalités suivantes :
Outil d'inférence causale de basetest basé sur la méthode delta, prend en charge CUPED
OLS, des milliards de lignes de données, Niveau inférieur à la seconde
IV, WLS basés sur OLS et d'autres GLS, DID, contrôle synthétique, CUPED, médiation sont en incubation
- uplift : des dizaines de millions d'opérations au niveau de la minute de données
- bootstrap / permutation Attendez que le cadre de simulation de données résolve le problème de l'estimation de la variance sans solutions affichées
Afin de conserver le sens original inchangé, le contenu doit être réécrit en chinois. Il n'est pas nécessaire d'afficher la phrase originale
- Annonce Open Source | Tencent Distributed Data Science Component
Tencent / fast-causal-inference — GitHub
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!