arrow_back

Analyser des données sur la natalité à l'aide de BigQuery et Vertex AI

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Analyser des données sur la natalité à l'aide de BigQuery et Vertex AI

Lab 1 heure universal_currency_alt 5 crédits show_chart Intermédiaire
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP012

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dans cet atelier, vous allez analyser un grand ensemble de données sur la natalité (137 millions de lignes) à l'aide de BigQuery et de Vertex AI.

Objectifs

Objectifs de l'atelier :

  • Lancer une instance de notebook Vertex AI
  • Appeler une requête BigQuery
  • Créer des graphiques dans Jupyter
  • Exporter des données pour le machine learning

Cet atelier explique comment explorer de grands ensembles de données tout en continuant à utiliser des outils que vous connaissez, comme Pandas et Jupyter. Le plus simple est de réaliser la première partie de l'agrégation dans BigQuery et d'obtenir en retour un petit DataFrame Pandas, que vous pouvez ensuite utiliser localement. Vertex AI offre une expérience Jupyter gérée. Vous n'avez donc pas à exécuter les serveurs de notebook vous-même.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.

  1. Cliquez sur Activer Cloud Shell Icône Activer Cloud Shell en haut de la console Google Cloud.

Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.

  1. (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
gcloud auth list
  1. Cliquez sur Autoriser.

  2. Vous devez à présent obtenir le résultat suivant :

Résultat :

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
gcloud config list project

Résultat :

[core] project = <ID_Projet>

Exemple de résultat :

[core] project = qwiklabs-gcp-44776a13dea667a6 Remarque : Pour consulter la documentation complète sur gcloud, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.

Tâche 1 : Appeler une requête BigQuery

Ouvrir la console BigQuery

  1. Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.

Le message Bienvenue sur BigQuery dans Cloud Console s'affiche. Il contient un lien vers le guide de démarrage rapide et les notes de version.

  1. Cliquez sur OK.

La console BigQuery s'ouvre.

  1. Dans l'éditeur de requête, saisissez la requête suivante :
SELECT plurality, COUNT(1) AS num_babies, AVG(weight_pounds) AS ave_weight FROM `bigquery-public-data.samples.natality` WHERE year > 2000 AND year < 2005 GROUP BY plurality
  1. Cliquez à présent sur Exécuter.

  2. Examinez les résultats. Combien de triplés sont nés aux États-Unis entre 2000 et 2005 ?

Cliquez sur Vérifier ma progression pour valider l'objectif.

Appeler BigQuery et exécuter une requête.

Tâche 2 : Lancer une instance de notebook Vertex AI

  1. Dans la console Cloud, dans le champ de recherche, saisissez "vertex", puis cliquez sur Vertex AI dans les résultats.

  2. Dans le menu de gauche, cliquez sur Workbench.

  3. Cliquez sur le bouton Activer l'API Notebooks.

  4. En haut de la page Workbench, cliquez sur + Créer.

  5. Dans la fenêtre pop-up, indiquez un nom pour votre notebook. Sous Région, sélectionnez et sous Zone, sélectionnez une zone dans cette région.

  6. Sous Environnement, sélectionnez "Python 3 (avec Intel® MKL)".

  7. Conservez les valeurs par défaut dans les autres champs, puis cliquez sur Créer.

  8. Cliquez sur Ouvrir JupyterLab. Une fenêtre JupyterLab s'ouvre dans un nouvel onglet.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Créer une instance de notebook Vertex AI

Tâche 3 : Visualiser les données dans Vertex AI

  1. Dans JupyterLab, démarrez un nouveau notebook en cliquant sur Notebook > Python 3.

  2. Ajoutez le code suivant pour importer la bibliothèque cliente Python BigQuery et initialiser un client. Ce dernier permet d'envoyer des messages à l'API BigQuery et d'en recevoir.

from google.cloud import bigquery client = bigquery.Client()
  1. Pour exécuter le code de cette cellule, appuyez sur Maj+Entrée.

  2. Ajoutez le code ci-dessous dans la cellule suivante de votre notebook. Cela vous permet de lancer une requête sur l'ensemble de données public BigQuery :

sql = """ SELECT plurality, COUNT(1) AS count, year FROM `bigquery-public-data.samples.natality` WHERE NOT IS_NAN(plurality) AND plurality > 1 GROUP BY plurality, year ORDER BY count DESC """ df = client.query(sql).to_dataframe() df.head()

Cet ensemble de données englobe toutes les naissances enregistrées aux États-Unis entre 1969 et 2008. La requête affiche le nombre de naissances multiples par année selon la pluralité (2 pour les jumeaux, 3 pour les triplés, etc.).

  1. Pour exécuter le code de cette cellule, appuyez sur Maj+Entrée.

Vous venez d'exécuter une requête dans le cloud. Le début du DataFrame (les cinq premières lignes) s'affiche sous la cellule de code. Vous disposez aussi des résultats complets, pour une analyse plus poussée dans un DataFrame Pandas.

Exécuter une requête pour renvoyer le nombre annuel de naissances multiples par type
  1. Insérez le code ci-dessous dans la cellule suivante pour croiser les données et créer un graphique à barres empilées représentant le nombre de naissances multiples au fil du temps :
pivot_table = df.pivot(index='year', columns='plurality', values='count') pivot_table.plot(kind='bar', stacked=True, figsize=(15,7));

Analysons ensuite le poids à la naissance en fonction du genre.

  1. Dans la cellule suivante, saisissez le code ci-dessous, puis exécutez-le :
sql = """ SELECT is_male, AVG(weight_pounds) AS ave_weight FROM `bigquery-public-data.samples.natality` GROUP BY is_male """ df = client.query(sql).to_dataframe() df.plot(x='is_male', y='ave_weight', kind='bar');

À la naissance, le poids des petits garçons est-il supérieur ou inférieur à celui des petites filles ? Vous attendiez-vous à ce résultat ?

Exécuter une requête pour obtenir le poids des bébés selon le genre

Pour votre dernière visualisation, observez l'évolution du poids des bébés en fonction du nombre de semaines de grossesse.

  1. Saisissez le code ci-dessous dans la cellule suivante et exécutez-le :
sql = """ SELECT gestation_weeks, AVG(weight_pounds) AS ave_weight FROM `bigquery-public-data.samples.natality` WHERE NOT IS_NAN(gestation_weeks) AND gestation_weeks <> 99 GROUP BY gestation_weeks ORDER BY gestation_weeks """ df = client.query(sql).to_dataframe() df.plot(x='gestation_weeks', y='ave_weight', kind='bar'); Remarque : Comme le champ gestation_weeks autorise les valeurs null et stocke les valeurs inconnues avec le nombre 99, cette requête exclut les enregistrements où gestation_weeks a la valeur null ou 99.

Un graphique s'affiche, illustrant le rapport entre le poids des bébés et le nombre de semaines de grossesse.

Exécuter une requête pour renvoyer le poids du bébé en fonction du nombre de semaines de gestation.

Félicitations !

Vous avez appris à lancer un notebook Vertex AI, à exécuter des requêtes BigQuery et à créer un graphique pour présenter vos résultats.

Terminer votre quête

Cet atelier d'auto-formation fait partie de la quête Scientific Data Processing. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez cette quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête ou à une autre quête contenant cet atelier pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.

Atelier suivant

Continuez sur votre lancée en suivant l'atelier Prédire le poids d'un bébé à l'aide de TensorFlow sur Cloud ML Engine, ou essayez le suivant :

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière modification du manuel : 17 octobre 2023

Dernier test de l'atelier : 19 octobre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.