arrow_back

BigQuery: Qwik Start - Línea de comandos

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

BigQuery: Qwik Start - Línea de comandos

Lab 30 minutos universal_currency_alt No cost show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP071

Labs de autoaprendizaje de Google Cloud

Descripción general

Almacenar y consultar grandes conjuntos de datos puede consumir bastante tiempo y dinero cuando no se cuenta con el hardware y la infraestructura adecuados. BigQuery es un almacén de datos en la nube, sin servidores y altamente escalable, que resuelve este problema a través de consultas rápidas en SQL, gracias a la potencia de procesamiento de la infraestructura de Google. Simplemente mueve tus datos a BigQuery y déjanos el trabajo duro a nosotros. Puedes controlar el acceso al proyecto y a tus datos (por ejemplo, puedes otorgar permisos de visualización o consulta de datos) según las necesidades de tu empresa.

Puedes acceder a BigQuery mediante la consola, la IU web o una herramienta de línea de comandos que use diversas bibliotecas cliente como Java, .NET o Python. También hay una variedad de proveedores de soluciones que puedes usar para interactuar con BigQuery.

En este lab práctico se muestra cómo usar bq, la herramienta de línea de comandos basada en Python de BigQuery, para consultar tablas públicas y cargar datos de muestra en BigQuery.

Actividades

  • Consultar un conjunto de datos públicos
  • Crear un conjunto de datos nuevo
  • Cargar datos en una tabla nueva
  • Consultar una tabla personalizada

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1: Examina una tabla

BigQuery ofrece una variedad de tablas de muestra en las que puedes ejecutar consultas. En este lab, ejecutarás algunas consultas en la tabla shakespeare, que contiene una entrada por cada palabra que aparece en cada obra.

Para examinar el esquema de la tabla Shakespeare en el conjunto de datos de muestra, ejecuta el siguiente comando:

bq show bigquery-public-data:samples.shakespeare

Con este comando, realizas las siguientes acciones:

  • bq para invocar la herramienta de línea de comandos de BigQuery
  • show es la acción
  • Luego, enumeras el nombre del project:public dataset.table que desees ver en BigQuery.

Resultado:

Last modified Schema Total Rows Total Bytes Expiration Time Partitioning Clustered Fields Labels ----------------- ------------------------------------ ------------ ------------- ------------ ------------------- ------------------ -------- 14 Mar 13:16:45 |- word: string (required) 164656 6432064 |- word_count: integer (required) |- corpus: string (required) |- corpus_date: integer (required)

Tarea 2: Ejecuta el comando de ayuda

Puedes obtener información sobre un comando si incluyes su nombre a continuación del comando help.

  1. Por ejemplo, la siguiente llamada a bq help recupera información sobre el comando query:
bq help query
  1. Para ver la lista completa de los comandos que usa bq, ejecuta solo el comando de ayuda bq help.

Tarea 3: Ejecuta una consulta

Ahora, ejecutarás una consulta para ver cuántas veces aparece la subcadena “raisin” en las obras de Shakespeare.

  1. Para ejecutar una consulta, ejecuta el comando bq query "[SQL_STATEMENT]":
  • Reemplaza cualquier comilla dentro de [SQL_STATEMENT] por \

  • Usa un tipo de comillas distinto fuera de ellas ("versus").

  1. Ejecuta la siguiente consulta en SQL estándar en Cloud Shell para registrar el número de veces que la substring “raisin” aparece en todas las obras de Shakespeare:
bq query --use_legacy_sql=false \ 'SELECT word, SUM(word_count) AS count FROM `bigquery-public-data`.samples.shakespeare WHERE word LIKE "%raisin%" GROUP BY word'

En este comando, la siguiente instrucción:

  • --use_legacy_sql=false hace que el SQL estándar sea la sintaxis de consulta de forma predeterminada.

Resultado:

Waiting on job_e19 ... (0s) Current status: DONE +---------------+-------+ | word | count | +---------------+-------+ | praising | 8 | | Praising | 4 | | raising | 5 | | dispraising | 2 | | dispraisingly | 1 | | raisins | 1 |

La tabla demuestra que, si bien la palabra raisin no aparece nunca, las letras que la conforman aparecen en ese orden en varias de las obras del autor.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si has ejecutado con éxito una consulta con un conjunto de datos públicos, verás una puntuación de evaluación.

Ejecuta una consulta (conjunto de datos: samples, tabla: shakespeare, substring: raisin)

Si buscas una palabra que no está en las obras de Shakespeare, no se mostrarán resultados.

  • Ejecuta la siguiente búsqueda de “huzzah” que no muestra ninguna coincidencia:
bq query --use_legacy_sql=false \ 'SELECT word FROM `bigquery-public-data`.samples.shakespeare WHERE word = "huzzah"'

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si has ejecutado con éxito una consulta con un conjunto de datos públicos, verás una puntuación de evaluación.

Ejecuta una consulta (conjunto de datos: samples, tabla: shakespeare, substring: huzzah)

Tarea 4: Crea una tabla nueva

Ahora, crea tu propia tabla. Cada tabla se almacena dentro de un conjunto de datos. Un conjunto de datos es un conjunto de recursos, como tablas y vistas.

Crea un conjunto de datos nuevo

  1. Utiliza el comando bq ls para enumerar los conjuntos de datos existentes en tu proyecto:
bq ls

Como el proyecto aún no tiene conjuntos de datos, te redirigirá a la línea de comandos.

  1. Ejecuta bq ls y el ID del proyecto bigquery-public-data para listar los conjuntos de datos en ese proyecto específico, seguido de dos puntos (:):
bq ls bigquery-public-data:

Resultado:

datasetId ----------------------------- austin_311 austin_bikeshare austin_crime austin_incidents austin_waste baseball bitcoin_blockchain bls census_bureau_construction census_bureau_international census_bureau_usa census_utility chicago_crime ...

A continuación, crea un conjunto de datos. El nombre de un conjunto de datos puede tener hasta 1,024 caracteres y llevar mayúsculas, minúsculas, números del 0 al 9 y guion bajo, pero no puede comenzar con un número o un guion bajo ni tener espacios.

  1. Usa el comando bq mk para crear un conjunto de datos nuevo con el nombre babynames en tu proyecto:
bq mk babynames

Resultado de muestra:

Dataset 'qwiklabs-gcp-ba3466847fe3cec0:babynames' successfully created.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste con éxito un conjunto de datos de BigQuery llamado babynames, verás una puntuación de evaluación.

Crea un conjunto de datos nuevo (nombre: babynames)
  • Ejecuta bq ls para confirmar que el conjunto de datos aparece ahora como parte del proyecto:
bq ls

Resultado de muestra:

datasetId ------------- babynames

Sube el conjunto de datos

Antes de generar la tabla, deberás agregar el conjunto de datos al proyecto. El archivo de datos personalizados que usarás contiene alrededor de 7 MB de datos con nombres populares de bebés proporcionados por la Administración de Seguridad Social de EE.UU.

  1. Ejecuta este comando para agregar el archivo ZIP baby names al proyecto con la URL del archivo de datos:
curl -LO http://www.ssa.gov/OACT/babynames/names.zip
  1. Genera una lista del archivo:
ls

Podrás ver el nombre del archivo agregado al proyecto.

  1. A continuación, descomprime el archivo:
unzip names.zip
  1. Como puedes ver, se trata de una larga lista de archivos de texto. Genera una lista de los archivos nuevamente:
ls

El comando bq load crea o actualiza una tabla y carga los datos en un solo paso.

Usarás el comando bq load para cargar el archivo fuente en una tabla nueva llamada names2010 en el conjunto de datos babynames que acabas de crear. De forma predeterminada, este proceso se ejecuta sincrónicamente y tarda unos segundos.

Los argumentos bq load que se ejecutarán son:

datasetID: babynames tableID: names2010 source: yob2010.txt schema: name:string,gender:string,count:integer
  1. Crea la tabla:
bq load babynames.names2010 yob2010.txt name:string,gender:string,count:integer

Resultado de muestra:

Waiting on job_4f0c0878f6184119abfdae05f5194e65 ... (35s) Current status: DONE

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si cargaste correctamente los datos en una tabla del conjunto de datos, verás una puntuación de evaluación.

Carga los datos en una tabla nueva
  1. Ejecuta bq ls y babynames para confirmar que la tabla aparece ahora en el conjunto de datos:
bq ls babynames

Resultado:

tableId Type ----------- ------- names2010 TABLE
  1. Ejecuta bq show y el dataset.table para ver el esquema:
bq show babynames.names2010

Resultado:

Last modified Schema Total Rows Total Bytes Expiration Time Partitioning Clustered Fields Labels ----------------- ------------------- ------------ ------------- ----------------- ------------------- ------------------ -------- 13 Aug 14:37:34 |- name: string 34073 654482 12 Oct 14:37:34 |- gender: string |- count: integer Nota: De forma predeterminada, cuando se cargan datos, BigQuery espera datos codificados en UTF-8. Si tienes problemas con los datos que cargaste con codificación ISO-8859-1 (o Latin-1), puedes pedirle a BigQuery que los procese en formato Latin-1 explícitamente mediante la marca -E. Para obtener más información sobre las codificaciones de caracteres, consulta la guía Introducción a la carga de datos.

Tarea 5: Ejecuta consultas

Sabes todo lo que necesitas para consultar los datos y obtener algunos resultados interesantes.

  1. Ejecuta el siguiente comando para mostrar los 5 nombres de niña más populares:
bq query "SELECT name,count FROM babynames.names2010 WHERE gender = 'F' ORDER BY count DESC LIMIT 5"

Resultado:

Waiting on job_58c0f5ca52764ef1902eba611b71c651 ... (0s) Current status: DONE +----------+-------+ | name | count | +----------+-------+ | Isabella | 22913 | | Sophia | 20643 | | Emma | 17345 | | Olivia | 17028 | | Ava | 15433 | +----------+-------+
  1. Ejecuta el siguiente comando para ver los 5 nombres de niño más raros:
bq query "SELECT name,count FROM babynames.names2010 WHERE gender = 'M' ORDER BY count ASC LIMIT 5" Nota: El recuento mínimo es de 5 ya que los datos de origen omiten los nombres con menos de 5 casos.

Resultado:

Waiting on job_556ba2e5aad340a7b2818c3e3280b7a3 ... (1s) Current status: DONE +----------+-------+ | name | count | +----------+-------+ | Aaqib | 5 | | Aaidan | 5 | | Aadhavan | 5 | | Aarian | 5 | | Aamarion | 5 | +----------+-------+

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si has conseguido con éxito consultar un conjunto de datos personalizado, verás una puntuación de evaluación.

Ejecutar consultas en la tabla del conjunto de datos

Tarea 6: Pon a prueba tus conocimientos

A continuación, se presentan algunas preguntas de opción múltiple para reforzar tus conocimientos de los conceptos de este lab. Trata de responderlas lo mejor posible.

Tarea 7: Realiza una limpieza

  1. Ejecuta el comando bq rm para quitar el conjunto de datos babynames con la marca -r y así eliminar todas las tablas del conjunto de datos:
bq rm -r babynames
  1. Escribe Y para confirmar el comando borrar.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si has quitado con éxito el conjunto de datos babynames, verás una puntuación de evaluación.

Quita el conjunto de datos babynames

¡Felicitaciones!

Ahora puedes usar la línea de comandos para consultar tablas públicas y cargar datos de muestra en BigQuery.

Próximos pasos y más información

Este lab también forma parte de una serie de labs denominada Qwik Starts. Estos labs están diseñados para ofrecerte una visión general de las numerosas funciones disponibles en Google Cloud. Busca “Qwik Starts” en el catálogo de labs para elegir el próximo lab que desees completar.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 26 de enero de 2024

Prueba más reciente del lab: 24 de agosto de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.