Introduction

Dans ce tutoriel, nous allons vous guider pas à pas à travers l’installation de DBT (Data Build Tool) et la création de votre premier projet. Pour ce faire, nous allons supposer que vous avez déjà un entrepôt de données (par exemple, Snowflake, BigQuery, Redshift) prêt à être utilisé.

Étape 1: Installer DBT

Avant de pouvoir utiliser DBT, vous devez l’installer sur votre machine. Pour ce faire, utilisez la commande suivante dans votre terminal :

pip install dbt

Si vous rencontrez des problèmes lors de l’installation, consultez la documentation officielle de DBT pour plus d’informations.

Étape 2: Créer un nouveau projet DBT

Après avoir installé DBT, vous pouvez créer un nouveau projet. Pour ce faire, utilisez la commande suivante :

dbt init nom_de_votre_projet

Cette commande crée un nouveau répertoire avec le nom de votre projet et y génère une structure de fichiers par défaut.

Étape 3: Configurer votre profil DBT

Avant de pouvoir exécuter des commandes DBT sur votre entrepôt de données, vous devez configurer votre profil DBT. Pour ce faire, ouvrez le fichier ~/.dbt/profiles.yml dans un éditeur de texte et ajoutez les informations de votre entrepôt de données. Voici un exemple pour Snowflake :

nom_de_votre_projet:
  target: dev
  outputs:
    dev:
      type: snowflake
      account: mon_compte
      user: mon_utilisateur
      password: mon_mot_de_passe
      role: mon_role
      database: ma_base_de_donnees
      warehouse: mon_entrepot
      schema: mon_schema

Remplacez les valeurs de mon_compte, mon_utilisateur, mon_mot_de_passe, mon_role, ma_base_de_donnees, mon_entrepot et mon_schema par vos propres informations.

Étape 4: Créer un modèle DBT

Un modèle DBT est simplement un fichier SQL qui définit une transformation de données. Pour créer un modèle, ajoutez un nouveau fichier SQL dans le dossier models de votre projet. Par exemple, vous pourriez créer un fichier models/stg_orders.sql avec le contenu suivant :

SELECT
  order_id,
  customer_id,
  order_date,
  total_amount
FROM raw.orders

Ce modèle extrait les colonnes order_id, customer_id, order_date et total_amount de la table orders dans la base de données raw.

Étape 5: Exécuter votre modèle DBT

Une fois que vous avez créé un modèle, vous pouvez l’exécuter avec la commande dbt run. Cette commande transforme les données dans votre entrepôt de données en fonction des modèles de votre projet.

dbt run

Si tout se passe bien, vous devriez voir un message indiquant que votre modèle a été exécuté avec succès.

Étape 6: Tester votre modèle DBT

DBT offre la possibilité de tester vos modèles pour vous assurer que vos transformations de données sont correctes. Pour ce faire, vous pouvez créer un fichier de test dans le dossier tests de votre projet. Par exemple, vous pourriez créer un fichier tests/test_orders.yml avec le contenu suivant :

version: 2

models:
  - name: stg_orders
    columns:
      - name: order_id
        tests:
          - not_null
          - unique

Ce test vérifie que la colonne order_id de votre modèle stg_orders ne contient pas de valeurs nulles et que toutes ses valeurs sont uniques.

Pour exécuter vos tests, utilisez la commande dbt test :

dbt test

Si tout se passe bien, vous devriez voir un message indiquant que vos tests ont réussi.

Conclusion

Félicitations, vous avez installé DBT, créé un projet, exécuté un modèle et testé vos transformations de données ! Bien sûr, il y a beaucoup plus à apprendre sur DBT, mais vous êtes bien parti pour explorer les nombreuses fonctionnalités et avantages de cet outil. Bonne exploration des données !

Catégorisé:

Étiqueté dans :