arrow_back

Transcription audio avec l'API Cloud Speech

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Transcription audio avec l'API Cloud Speech

Lab 30 minutes universal_currency_alt 1 crédit show_chart Débutant
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP048

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

L'API Speech-to-Text vous permet de transcrire des fichiers audio en fichiers texte dans plus de 80 langues.

Dans cet atelier, vous allez envoyer à l'API Speech un fichier audio à transcrire.

Points abordés

Dans cet atelier, vous allez apprendre à :

  • créer une requête API Speech-to-Text et appeler l'API avec curl ;
  • appeler l'API Speech-to-Text avec des fichiers audio dans une autre langue.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Tâche 1 : Créer une clé API

Étant donné que vous utilisez curl pour envoyer une requête à l'API Speech-to-Text, vous devez générer une clé API à transmettre dans l'URL de la requête.

  1. Pour créer une clé API, accédez au menu de navigation (Icône du menu de navigation), puis cliquez sur API et services > Identifiants.

  2. Cliquez sur Créer des identifiants et sélectionnez Clé API.

  3. Copiez et conservez la clé que vous venez de générer. Vous l'utiliserez dans la suite de cet atelier.

  4. Cliquez sur Fermer.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Créer une clé API

Enregistrez la clé API dans une variable d'environnement pour éviter d'avoir à insérer sa valeur dans chaque requête.

  1. Pour poursuivre, connectez-vous à l'instance linux-instance provisionnée pour vous via SSH :

Dans le menu de navigation (Icône du menu de navigation), cliquez sur Compute Engine > Instances de VM.

Trouvez la VM linux-instance dans la liste Instances de VM. Les détails de la VM s'affichent à droite de son nom.

  1. Cliquez sur SSH à droite du nom de la VM linux-instance.

Un shell interactif s'ouvre. Utilisez-le pour effectuer les opérations suivantes.

  1. Dans le shell (SSH), exécutez la commande suivante en remplaçant <YOUR_API_KEY> par la clé que vous venez de copier :
export API_KEY=<YOUR_API_KEY>

Tâche 2 : Créer votre requête API

Remarque : Dans cet atelier, vous allez utiliser un fichier préenregistré disponible sur Cloud Storage : gs://cloud-samples-data/speech/brooklyn_bridge.flac. Avant de l'envoyer à l'API Speech-to-Text, vous pouvez l'écouter.
  1. Créez votre requête pour l'API dans un fichier request.json. Créez le fichier request.json :
touch request.json
  1. Ouvrez le fichier en utilisant l'éditeur de ligne de commande de votre choix (nano, vim, emacs) ou gcloud, puis ajoutez le contenu suivant au fichier request.json, en utilisant la valeur uri de l'exemple de fichier audio .raw :
{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-data/speech/brooklyn_bridge.flac" } }
  1. Enregistrez le fichier si nécessaire.

Le corps de la requête comporte deux objets : config et audio.

Dans config, vous indiquez à l'API Speech-to-Text comment elle doit traiter la requête :

  • Le paramètre encoding spécifie à l'API le type d'encodage audio du fichier envoyé. FLAC est le type d'encodage des fichiers .raw. Pour en savoir plus sur les types d'encodage, consultez la documentation de référence de RecognitionConfig.
  • S'il n'est pas inclus dans la requête, le paramètre languageCode sera défini sur l'anglais par défaut.

Vous pouvez ajouter d'autres paramètres à votre objet config, mais encoding est le seul obligatoire.

Dans l'objet audio, vous transmettez à l'API l'URI du fichier audio, qui est stocké dans Cloud Storage pour cet atelier.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Créer une requête API Speech

Vous pouvez maintenant appeler l'API Speech-to-Text.

Tâche 3 : Appeler l'API Speech-to-Text

  1. Transmettez à l'API le corps de votre requête, ainsi que la variable d'environnement de la clé API, en exécutant la commande curl suivante (dans une seule ligne de commande) :
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

La réponse est stockée dans un fichier nommé result.json.

  1. Pour afficher le contenu du fichier, vous pouvez exécuter la commande suivante :
cat result.json

La réponse renvoyée par la commande curl doit ressembler à ceci :

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98216057 } ], "resultEndTime": "1.770s", "languageCode": "en-us" } ], "totalBilledTime": "15s" }

La valeur transcript renvoie la transcription que l'API Speech a créée à partir de votre fichier audio, tandis que la valeur confidence indique le niveau de confiance que l'API accorde à sa transcription de votre fichier audio.

Notez que vous avez appelé la méthode syncrecognize dans la requête ci-dessus. L'API Speech-to-Text prend en charge les transcriptions audio synchrones et asynchrones.

Dans cet exemple, un fichier audio complet a été utilisé, mais vous pourriez tout aussi bien vous servir de la méthode syncrecognize pour réaliser une transcription audio en streaming pendant que l'utilisateur parle.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Appeler l'API Speech pour l'anglais

Tâche 4 : Faire une transcription audio dans une autre langue

Vous parlez plusieurs langues ? L'API Speech-to-Text peut transcrire du contenu audio dans plus de 100 langues.

Vous pouvez modifier le paramètre languageCode dans le fichier request.json. Vous trouverez la liste des langues disponibles dans le guide sur les langues acceptées.

Essayez avec un fichier audio en français (cliquez ici pour l'écouter).

  1. Modifiez votre fichier request.json comme suit :
{ "config": { "encoding":"FLAC", "languageCode": "fr" }, "audio": { "uri":"gs://cloud-samples-data/speech/corbeau_renard.flac" } }
  1. Appelez Speech-to-Text en exécutant à nouveau la commande curl.

  2. Voici les résultats :

cat result.json

La réponse suivante devrait s'afficher :

{ "results": [ { "alternatives": [ { "transcript": "maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau", "confidence": 0.93855613 } ], "resultEndTime": "12.630s", "languageCode": "fr-fr" } ], "totalBilledTime": "15s" }

Il s'agit d'un extrait d'une célèbre fable de La Fontaine. Si vous avez des fichiers audio dans une autre langue, vous pouvez essayer de les ajouter à Cloud Storage et modifier le paramètre languageCode dans votre requête.

Remarque : Pour en savoir plus sur les restrictions et les limites d'utilisation de l'API Cloud Speech-to-Text, consultez la documentation sur les quotas et limites. Appeler l'API Speech pour le français

Félicitations !

Vous avez effectué une transcription audio avec l'API Speech. Vous avez transmis l'URI Cloud Storage de votre fichier audio à l'API et vous avez aussi vu comment transmettre une chaîne de votre contenu audio encodée en base64.

Terminer votre quête

Cet atelier d'auto-formation fait partie des quêtes Intro to ML: Language Processing et Language, Speech, Text & Translation with Google Cloud APIs. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez une quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à n'importe quelle quête contenant cet atelier pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.

Atelier suivant

Continuez sur votre lancée en suivant l'atelier Mesurer et améliorer la précision de Speech ou essayez les suivants :

Étapes suivantes et informations supplémentaires

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 20 septembre 2023

Dernier test de l'atelier : 20 septembre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.