arrow_back

Ingérer de nouveaux ensembles de données dans BigQuery

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Ingérer de nouveaux ensembles de données dans BigQuery

Lab 1 heure universal_currency_alt 1 crédit show_chart Débutant
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP411

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

BigQuery est la base de données d'analyse NoOps, économique et entièrement gérée de Google. Avec BigQuery, vous pouvez interroger plusieurs téraoctets de données sans avoir à gérer d'infrastructure ni faire appel à un administrateur de base de données. Basé sur le langage SQL et le modèle de paiement à l'usage, BigQuery vous permet de vous concentrer sur l'analyse des données pour en dégager des informations pertinentes.

Vous allez utiliser un ensemble de données d'e-commerce comprenant des millions d'enregistrements Google Analytics pour le Google Merchandise Store, chargé dans BigQuery. Vous disposez d'une copie de cet ensemble de données pour cet atelier, et vous allez explorer les champs et lignes qu'il contient afin d'obtenir des informations.

Dans cet atelier, vous allez ingérer plusieurs types d'ensembles de données dans des tables BigQuery.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Ouvrir la console BigQuery

  1. Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.

Le message Bienvenue sur BigQuery dans Cloud Console s'affiche. Il contient un lien vers le guide de démarrage rapide et les notes de version.

  1. Cliquez sur OK.

La console BigQuery s'ouvre.

Tâche 1 : Créer un ensemble de données pour stocker les tables

  1. Pour créer un ensemble de données, cliquez sur l'icône Afficher les actions à côté de l'ID de votre projet, puis sélectionnez Créer un ensemble de données.

Option Créer un ensemble de données mise en évidence

  1. Définissez le champ ID de l'ensemble de données sur ecommerce. Conservez les valeurs par défaut des autres champs.

  2. Cliquez sur CRÉER L'ENSEMBLE DE DONNÉES.

L'ensemble de données "ecommerce" s'affiche à présent sous le nom de votre projet.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer un ensemble de données pour stocker les tables

Tâche 2 : Ingérer un nouvel ensemble de données à partir d'un fichier CSV

Scénario : votre équipe marketing vous sollicite pour l'aider à déterminer quels produits doivent être inclus dans les promotions en fonction des niveaux de stock. Elle souhaite aussi savoir comment est perçu chaque produit par les consommateurs sur la base des avis sur les produits.

Votre ensemble de données transactionnelles d'e-commerce existant ne contient pas de données sur les niveaux de stock ou d'avis sur les produits, mais vos équipes en charge des opérations et du marketing vous ont fourni de nouveaux ensembles de données à analyser.

Pour vous lancer :

  1. Téléchargez l'ensemble de données des niveaux de stock produit sur votre ordinateur. (Ouvrez et téléchargez le fichier dans une fenêtre normale.)

  2. Pour créer une table, cliquez sur l'icône Afficher les actions à côté de l'ensemble de données ecommerce, puis sélectionnez Ouvrir.

  3. Cliquez sur Créer une table.

  4. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Importer
  • Sélectionner un fichier : sélectionnez le fichier que vous avez téléchargé précédemment
  • Format de fichier : CSV

Destination :

  • Nom de la table : products

Conservez la valeur par défaut des autres paramètres.

Schéma :

  • Cochez la case Détection automatique pour le schéma.
Remarque : La case à cocher ne s'affiche pas ? Vérifiez que le format de fichier est défini sur CSV et non Avro.
  • Paramètres de partitionnement et de clustering : conservez les paramètres par défaut.

Options avancées :

  • Conservez les paramètres par défaut.
  1. Cliquez sur Créer la table.

La table products doit s'afficher sous l'ensemble de données "ecommerce".

  1. Sélectionnez la table "products" et affichez les détails.

Cliquez sur Vérifier ma progression pour valider l'objectif. Ingérer un nouvel ensemble de données à partir d'un fichier CSV

  1. Sélectionnez Aperçu et vérifiez que toutes les colonnes ont été chargées (voir échantillon ci-dessous) :
SKU name orderedQuantity stockLevel restockingLeadTime
GGOEGDHQ014899 20 oz Stainless Steel Insulated Tumbler 499 652 2
GGOEGOAB022499 Satin Black Ballpoint Pen 403 477 2
GGOEYHPB072210 Twill Cap 1429 1997 2
GGOEGEVB071799 Pocket Bluetooth Speaker 214 246 2

Vous venez de charger un fichier CSV dans une nouvelle table BigQuery.

Explorer les données récemment chargées à l'aide de SQL

Maintenant, entraînez-vous à exécuter une requête de base afin de récupérer des données de la nouvelle table "products".

  • Dans l'ÉDITEUR BigQuery, écrivez une requête pour lister les cinq produits ayant le plus haut niveau de stock :
#standardSQL SELECT * FROM ecommerce.products ORDER BY stockLevel DESC LIMIT 5

Tâche 3 : Ingérer des données à partir de Cloud Storage

  1. Pour créer une table, cliquez sur l'icône Afficher les actions à côté de l'ensemble de données ecommerce, puis sur Créer une table.

  2. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Google Cloud Storage
  • Sélectionnez un fichier du bucket GCS : data-insights-course/exports/products.csv
  • Format de fichier : CSV

Destination :

  • Nom de la table : products

Conservez les valeurs par défaut pour tous les autres paramètres.

Schéma :

  • Cochez la case Détection automatique pour le schéma.

Options avancées :

  • Conservez les paramètres par défaut.
  1. Cliquez sur Créer la table.

La table a-t-elle été créée ? Non.

  1. Lorsque le message d'erreur apparaît, cliquez sur ACCÉDER AU JOB, puis sur le bouton Répéter le chargement de la tâche.

  2. Dans le formulaire "Créer une table", cliquez sur Options avancées, et dans le menu déroulant Préférence d'écriture, sélectionnez Écraser la table.

  3. Cliquez maintenant sur Créer la table.

Vérifiez que la table a bien été exécutée.

Cliquez sur Vérifier ma progression pour valider l'objectif. Ingérer des données à partir de Cloud Storage

Tâche 4 : Ingérer un nouvel ensemble de données à partir d'une feuille de calcul Google Sheets

  1. Cliquez sur + SAISIR UNE NOUVELLE REQUÊTE (Icône Ajouter).

  2. Exécutez la requête suivante pour indiquer pour quels produits le besoin de réapprovisionnement est le plus important, sur la base de la rotation des stocks et des délais de réapprovisionnement :

#standardSQL SELECT *, SAFE_DIVIDE(orderedQuantity,stockLevel) AS ratio FROM ecommerce.products WHERE # include products that have been ordered and # are 80% through their inventory orderedQuantity > 0 AND SAFE_DIVIDE(orderedQuantity,stockLevel) >= .8 ORDER BY restockingLeadTime DESC Remarque : Si vous indiquez un chemin de nom de projet relatif, par exemple ecommerce.products au lieu de project_id.ecommerce.products, BigQuery supposera qu'il s'agit du projet actuel.

Tâche 5 : Enregistrer des données dans Google Sheets

Scénario : Vous souhaitez fournir à votre équipe de gestion de la chaîne d'approvisionnement un moyen de noter si elle a ou non contacté le fournisseur pour réapprovisionner les stocks, et d'ajouter des commentaires sur les articles. Vous décidez d'utiliser une feuille de calcul Google Sheets pour réaliser un sondage rapide.

Créez-la maintenant :

  1. Dans "Résultats de la requête", sélectionnez ENREGISTRER LES RÉSULTATS, puis choisissez Google Sheets dans le menu déroulant.

  2. Un pop-up s'affiche. Il contient un lien permettant d'ouvrir la feuille de calcul. Sélectionnez Ouvrir.

  3. Dans la colonne G de votre feuille de calcul, ajoutez un nouveau champ nommé comments (commentaires), et pour la première ligne de produit, saisissez new shipment on the way (nouvelle commande en cours d'expédition), puis appuyez sur Entrée.

Colonne "comments" mise en évidence dans la feuille de calcul

Dans Google Sheets, sélectionnez Partager, puis cliquez sur Copier le lien.

  1. Revenez dans l'onglet BigQuery.

  2. Cliquez sur l'icône Afficher les actions à côté de l'ensemble de données ecommerce, puis cliquez sur Créer une table.

  3. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Drive
  • Sélectionnez l'URI du fichier Drive : indiquez l'URL de la feuille de calcul
  • Format de fichier : Feuille de calcul Google Sheets

Destination :

  • Type de table : conserver le paramètre par défaut (table externe)
  • Nom de la table : products_comments

Schéma :

  • Cochez la case Détection automatique pour le schéma.

Options avancées :

  • Définissez Lignes d'en-tête à ignorer sur 1.
  • Conservez les valeurs par défaut pour toutes les options.
  1. Cliquez sur Créer la table.
Remarque : Aucun job de chargement n'est disponible pour créer une table avec un lien externe, étant donné que les données n'ont pas été ingérées.

Cliquez sur Vérifier ma progression pour valider l'objectif. Ingérer un nouvel ensemble de données à partir d'une feuille de calcul Google Sheets

Interroger les données d'une feuille de calcul externe

  1. Cliquez sur + SAISIR UNE NOUVELLE REQUÊTE.

Ajoutez la requête ci-dessous, puis cliquez sur EXÉCUTER :

#standardSQL SELECT * FROM ecommerce.products_comments WHERE comments IS NOT NULL

Attendez que la requête s'exécute. Vous verrez que le nouveau champ comments est ajouté.

SKU

name

orderedQuantity

stockLevel

restockingLeadTime

ratio

comments

GGOENEBB078899

Cam Indoor Security Camera - USA

2139

2615

42

0.8179732314

new shipment on the way

  1. Revenez à l'onglet de votre feuille de calcul Google Sheets.

  2. Saisissez d'autres commentaires dans le champ "comments".

  3. Revenez dans BigQuery et réexécutez la requête en cliquant sur EXÉCUTER.

Vérifiez que les nouvelles données s'affichent correctement dans les résultats.

Vous avez créé un lien vers une table externe dans BigQuery à partir d'une feuille de calcul Google Sheets.

Tâche 6 : Performances des tables externes et considérations liées à la qualité des données

L'association de tables externes à BigQuery (à partir d'une feuille de calcul Google Sheets ou directement à partir de Cloud Storage, par exemple) présente plusieurs limites. En voici deux parmi les principales :

  • La cohérence des données n'est pas garantie si les valeurs de données de la source sont modifiées pendant l'interrogation.
  • Les sources de données stockées en dehors de BigQuery ne bénéficient pas des avantages de performance liés au fait que BigQuery gère le stockage de données (y compris l'optimisation automatique du chemin d'exécution de votre requête, la désactivation de certaines fonctions de caractère générique, etc.).

Félicitations !

Vous avez créé un ensemble de données et ingéré de nouvelles sources de données externes dans BigQuery à partir d'un fichier CSV, de Cloud Storage et de Google Drive.

Terminer votre quête

Cet atelier d'auto-formation fait partie de la quête BigQuery for Marketing Analysts. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez cette quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.

Atelier suivant

Continuez sur votre lancée en suivant l'atelier Créer un tableau de bord d'informatique décisionnelle à l'aide de Google Looker Studio et BigQuery, ou consultez cet autre atelier Google Cloud Skills Boost : Créer des tables partitionnées par date dans BigQuery.

Étapes suivantes et informations supplémentaires

Vous possédez un compte Google Analytics et souhaitez interroger vos propres ensembles de données BigQuery ? Suivez ce guide d'exportation.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 6 octobre 2023

Dernier test de l'atelier : 11 octobre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.