Introduction
Dans ce tutoriel, nous allons vous guider pas à pas à travers l’installation de DBT (Data Build Tool) et la création de votre premier projet. Pour ce faire, nous allons supposer que vous avez déjà un entrepôt de données (par exemple, Snowflake, BigQuery, Redshift) prêt à être utilisé.
Étape 1: Installer DBT
Avant de pouvoir utiliser DBT, vous devez l’installer sur votre machine. Pour ce faire, utilisez la commande suivante dans votre terminal :
pip install dbt
Si vous rencontrez des problèmes lors de l’installation, consultez la documentation officielle de DBT pour plus d’informations.
Étape 2: Créer un nouveau projet DBT
Après avoir installé DBT, vous pouvez créer un nouveau projet. Pour ce faire, utilisez la commande suivante :
dbt init nom_de_votre_projet
Cette commande crée un nouveau répertoire avec le nom de votre projet et y génère une structure de fichiers par défaut.
Étape 3: Configurer votre profil DBT
Avant de pouvoir exécuter des commandes DBT sur votre entrepôt de données, vous devez configurer votre profil DBT. Pour ce faire, ouvrez le fichier ~/.dbt/profiles.yml
dans un éditeur de texte et ajoutez les informations de votre entrepôt de données. Voici un exemple pour Snowflake :
nom_de_votre_projet:
target: dev
outputs:
dev:
type: snowflake
account: mon_compte
user: mon_utilisateur
password: mon_mot_de_passe
role: mon_role
database: ma_base_de_donnees
warehouse: mon_entrepot
schema: mon_schema
Remplacez les valeurs de mon_compte
, mon_utilisateur
, mon_mot_de_passe
, mon_role
, ma_base_de_donnees
, mon_entrepot
et mon_schema
par vos propres informations.
Étape 4: Créer un modèle DBT
Un modèle DBT est simplement un fichier SQL qui définit une transformation de données. Pour créer un modèle, ajoutez un nouveau fichier SQL dans le dossier models
de votre projet. Par exemple, vous pourriez créer un fichier models/stg_orders.sql
avec le contenu suivant :
SELECT
order_id,
customer_id,
order_date,
total_amount
FROM raw.orders
Ce modèle extrait les colonnes order_id
, customer_id
, order_date
et total_amount
de la table orders
dans la base de données raw
.
Étape 5: Exécuter votre modèle DBT
Une fois que vous avez créé un modèle, vous pouvez l’exécuter avec la commande dbt run
. Cette commande transforme les données dans votre entrepôt de données en fonction des modèles de votre projet.
dbt run
Si tout se passe bien, vous devriez voir un message indiquant que votre modèle a été exécuté avec succès.
Étape 6: Tester votre modèle DBT
DBT offre la possibilité de tester vos modèles pour vous assurer que vos transformations de données sont correctes. Pour ce faire, vous pouvez créer un fichier de test dans le dossier tests
de votre projet. Par exemple, vous pourriez créer un fichier tests/test_orders.yml
avec le contenu suivant :
version: 2
models:
- name: stg_orders
columns:
- name: order_id
tests:
- not_null
- unique
Ce test vérifie que la colonne order_id
de votre modèle stg_orders
ne contient pas de valeurs nulles et que toutes ses valeurs sont uniques.
Pour exécuter vos tests, utilisez la commande dbt test
:
dbt test
Si tout se passe bien, vous devriez voir un message indiquant que vos tests ont réussi.
Conclusion
Félicitations, vous avez installé DBT, créé un projet, exécuté un modèle et testé vos transformations de données ! Bien sûr, il y a beaucoup plus à apprendre sur DBT, mais vous êtes bien parti pour explorer les nombreuses fonctionnalités et avantages de cet outil. Bonne exploration des données !