arrow_back

Explora Dataplex

Acceder Unirse
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Explora Dataplex

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícono de información importante IMPORTANTE:

ícono de computadora de escritorio/laptop Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.

ícono de verificación Se permiten solo 5 intentos por lab.

ícono de diana del cuestionario A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.

ícono de cronómetro Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.

ícono de sugerencia Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.

Descripción general de la actividad

Dataplex es una herramienta potente que simplifica la administración de datos en data lakes, almacenes de datos y data marts. Proporciona controles coherentes y facilita la navegación de entornos de datos complejos, lo que reduce significativamente el tiempo y el esfuerzo necesarios para encontrar los datos adecuados para el análisis.

Una de las funciones clave de Dataplex es su interfaz fácil de usar, que permite buscar fuentes de datos con facilidad en almacenes de datos y data lakes. La compatibilidad de Dataplex con diversos servicios (como BigQuery y Dataproc) permite identificar y administrar fuentes de datos de manera integrada y eficaz.

En este lab, usarás la búsqueda integrada en BigQuery, Dataplex y Analytics Hub para identificar fuentes de datos. Esta es una habilidad muy útil para los analistas de datos, ya que puede mejorar considerablemente la eficiencia y la exactitud de tus procesos de análisis de datos.

Situación

Marta es jefa de Distribución de Productos en el comercio electrónico TheLook, una empresa internacional de ropa que se especializa en moda innovadora y aprovisionamiento ético y sustentable. A Marta le interesa explorar el impacto potencial del clima en las ventas de camisetas. Específicamente, quiere generar un informe que contenga una lista de los pedidos más recientes, junto con la marca del producto y el rango de temperatura.

Marta quiere que la ayudes a identificar las fuentes de datos adecuadas que podría usar para generar el informe. Usarás Dataplex para identificar tablas en BigQuery, que contienen la información de los pedidos y las marcas, además de conjuntos de datos públicos que incluyen los datos de temperatura.

Sigue estos pasos para completar esta tarea. Primero, deberás usar BigQuery para buscar tablas que contengan las palabras “orders” (pedidos) o “brand” (marca). Segundo, deberás buscar los datos de marcas en Dataplex. Tercero, deberás buscar los datos de temperatura en los conjuntos de datos públicos de BigQuery. Cuarto, deberás usar el linaje para buscar la fuente de los datos de los nombres de productos. Finalmente, deberás demostrar que tienes acceso a todos los datos necesarios para el informe de Marta.

Configuración

Antes de hacer clic en Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana del navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • Tiempo restante
    • El botón Abrir la consola de Google
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
    Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago.
  2. Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.

    Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.

    Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta.
  3. Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.

{{{user_0.username | "nombre de usuario de Google Cloud"}}}

También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.

  1. Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
{{{user_0.password | "contraseña de Google Cloud"}}}

También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.

Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud podría generar cargos adicionales.
  1. Haz clic para avanzar por las páginas siguientes:
    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para las pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Menú de la consola de Google Cloud con el ícono de menú de navegación destacado

Tarea 1: Busca conjuntos de datos en BigQuery

En esta tarea, buscarás las tablas de origen disponibles que contengan la información de las marcas y los pedidos que necesita Marta para su informe. Para ello, deberás usar BigQuery para buscar tablas que contengan las palabras orders o brand.

Nota: Para esta tarea, deberás expandir el proyecto y, luego, el conjunto de datos. Posteriormente, podrás explorar las tablas en el conjunto de datos y ver todos los nombres de tablas.
  1. En el menú de navegación (Ícono del menú de navegación) de la consola de Google Cloud, selecciona BigQuery.
Nota: Puede aparecer el mensaje Te damos la bienvenida a BigQuery en la consola de Cloud, que proporciona vínculos a la guía de inicio rápido y las notas de la versión por actualizaciones de la IU. Haz clic en Listo para continuar.
  1. En el campo de búsqueda Explorador, escribe order y presiona INTRO.

La consola enumerará las tablas order_items, orders y orders_by_state como resultados de la búsqueda.

Luego, busca tablas que contengan datos de marcas.

  1. En el cuadro de búsqueda Explorer, escribe brand y presiona INTRO.

No se devuelven resultados para la búsqueda en este caso.

Tarea 2: Busca conjuntos de datos en Dataplex

Deberás encontrar los datos de las marcas, pero buscar en cada fuente y en cada columna para ubicarlos lleva mucho tiempo, así que le pides ayuda a Arturo, el arquitecto de datos. Te recomienda usar Dataplex, el catálogo de datos más actualizado de la empresa, para encontrar la información que necesitas.

En esta tarea, buscarás los datos de las marcas en Dataplex.

  1. En el campo de búsqueda de la barra de título de la consola de Google Cloud, escribe Dataplex.

Dataplex se muestra en los resultados de la búsqueda

  1. En los resultados de la búsqueda, selecciona Dataplex.
Nota: Puede aparecer el mensaje Te damos la bienvenida a la nueva experiencia de Dataplex, que proporciona vínculos a la guía de inicio rápido y las notas de la versión por actualizaciones de la IU. Selecciona la casilla de verificación No volver a mostrar este mensaje y haz clic en Cerrar.
  1. En el panel de navegación de la sección Descubre, selecciona Búsqueda si la página Búsqueda no se carga automáticamente.
  2. En el campo de búsqueda Encuentra recursos de datos en todos tus proyectos y organizaciones, escribe brand y presiona INTRO.

Si la búsqueda de brand no devuelve resultados en BigQuery, se mostrarán las tablas que contienen datos de las marcas en Dataplex. Esto es porque Dataplex tiene la capacidad de buscar nombres de columnas y descripciones en las tablas.

  1. Selecciona la tabla products en los resultados de la búsqueda.
  2. En la página de productos, toma nota de la Fecha de la última modificación, que indica qué tan actuales son los datos.
  3. En el campo Etiquetas, haz clic en Editar en BigQuery. Se abrirá una nueva ventana del navegador y verás la tabla de productos en BigQuery.
  4. Haz clic en la pestaña Vista previa para examinar los datos.
  5. Examina la columna brand. Estos son los datos que necesita Marta para agregar la información relacionada con las marcas al informe de pedidos.

Los artículos de un pedido están en la tabla order_items. Para obtener un informe de los artículos pedidos, como las camisetas, con información de las marcas, puedes conectar las tablas order_items y products. Para hacerlo, debes encontrar una columna común.

  1. En el área Explorador, expande el conjunto de datos thelook_gcda para mostrar la lista de tablas.

  2. Haz clic en la tabla order_items. Se muestra la pestaña Esquema. Examina la lista de columnas para responder la siguiente pregunta.

Tarea 3: Busca conjuntos de datos en Analytics Hub

Marta solicitó que se incluyera información del rango de temperatura en el informe, pero Arturo señala que estos datos no están disponibles en el lakehouse, por lo que buscas en Internet y descubres que BigQuery tiene conjuntos de datos públicos disponibles.

Para esta tarea, deberás buscar los datos de temperatura en los conjuntos de datos públicos de BigQuery.

  1. En la barra Explorador, haz clic en + Agregar para agregar una fuente de datos al proyecto.
  2. En la lista Fuentes adicionales de la página Agregar, selecciona Analytics Hub. La página Analytics Hub se abre y muestra las fuentes de datos compartidos.
  3. En el campo de búsqueda, escribe weather y presiona INTRO.
  4. Selecciona GHCN Daily proporcionado por la NOAA. Este conjunto de datos contiene resúmenes diarios del clima provenientes de estaciones terrestres de todo el mundo.
  5. En la página GHCN Daily, haz clic en + Agregar conjunto de datos al proyecto.
Nota: Para guardar este conjunto de datos, es posible que primero debas habilitar la API. Para hacerlo, haz clic en el botón Habilitar la API de Analytics Hub en la página Crear conjunto de datos vinculado.
  1. En la página Crear conjunto de datos vinculado, haz clic en Guardar.

  2. En la lista de conjuntos de datos en el panel Explorador, expande el conjunto de datos ghcn_daily.

  3. Selecciona la tabla ghcnd_1763.

  4. Selecciona la pestaña Vista previa para examinar los datos. Los valores TMAX que se muestran en la columna element representan los valores de las temperaturas máximas de días específicos.

  5. Contrae el conjunto de datos ghcn_daily. Este paso sirve para ocultar las tablas en el conjunto de datos ghcn_daily y hacer visible el conjunto de datos thelook_gcda para la siguiente tarea.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente. Buscar conjuntos de datos en Analytics Hub

Tarea 4: Identifica fuentes de datos con linaje

Marta está preocupada por un informe que se basa en la tabla on_hand_inventory y pregunta sobre la fuente de product names. Menciona que tuvo problemas en el pasado debido a nombres de productos incorrectos.

Marta quiere que le aclaren el origen de los datos de product names, que se usan en la columna product_name_logistics, en la tabla on_hand_inventory. Es importante tener en cuenta que la tabla on_hand_inventory se genera cada hora con datos que se derivan de otras tablas.

En esta tarea, usarás Linaje para determinar la tabla y la columna que usan para completar los datos de product names en la columna product_name_logistics.

  1. En la lista de conjuntos de datos, expande el conjunto thelook_gcda y selecciona la tabla on_hand_inventory.
  2. Selecciona la pestaña Linaje.
Nota: Si el gráfico no es visible de inmediato, espera de unos 15 a 30 minutos a que se genere. Puedes continuar el lab y usar las capturas de pantalla de las instrucciones como guía. Luego de unos minutos, haz clic en el botón Actualizar para actualizar y explorar el gráfico.

Una vez que la pestaña Linaje se complete, se mostrará un gráfico similar al siguiente:

Diagrama de flujo de on_hand_inventory, que incluye las tablas inventory_items y products

El diagrama muestra las líneas de flujo de los datos desde las tablas inventory_items y products hacia la tabla on_hand_inventory. Esto significa que los datos contenidos en la tabla on_hand_inventory se originan de las tablas inventory_items y products.

  1. Haz clic en la lupa naranja vinculada a las tablas inventory_items y products, que indica una transformación SQL entre las fuentes a la izquierda y la tabla a la derecha.

La consulta que generó la tabla on_hand_inventory se muestra en el panel Consulta.

Página Detalles con pestañas en el diagrama de flujo on_hand_inventory, que incluye el ID de tarea y tipo de proceso.

Toma nota de las dos tablas que identificaste en el diagrama después de la cláusula FROM de la consulta: inventory_items y products. Las consultas a veces especifican un alias o un sobrenombre para las tablas. Un alias se define después de la palabra clave AS; por ejemplo, en esta consulta, la tabla inventory_items tiene el alias inv. Los alias de tabla ayudan a mantener el código compacto y se pueden usar para especificar de dónde proviene una columna en la parte SELECT de la consulta. Por ejemplo, inv.id es la columna id que proviene de la tabla con el alias inv.

Nota: Haz referencia a la consulta en el panel Consulta para responder las siguientes preguntas de opción múltiple.

La cláusula SELECT de una consulta se puede usar para cambiar el nombre a una columna en el resultado. Por ejemplo, el nombre de la fórmula COUNT(inv.id) se cambia a on_hand_count.

El linaje de datos muestra qué columna y tabla son la fuente de "product name" en el resultado de product_name_logistics.

Tarea 5: Reúne todo en un solo lugar

Marta te pidió que te asegures de tener todos los datos necesarios para que puedan completar el informe.

En esta tarea, deberás ejecutar 5 consultas para mostrar los datos de brand, orders, order_items, weather, product_id y product_name de modo que tengas toda la información que necesitas para el informe de Marta.

Muestra datos de las marcas

Primero, ejecuta una consulta que devuelva las 10 primeras filas de la tabla products que contienen la información de las marcas.

  1. En BigQuery Studio, haz clic en el botón Consulta para abrir el editor de consultas y, luego, selecciona In a new tab. Se abre una pestaña completada previamente.
  2. Reemplaza el texto predeterminado en la pestaña Sin título con la siguiente consulta en SQL:
SELECT * FROM `thelook_gcda.products` WHERE brand IS NOT NULL limit 10; Nota: Cada vez que ejecutes una nueva consulta en el Editor de consultas, puedes reemplazar la anterior copiando y pegando la consulta nueva en la misma pestaña Sin título o puedes hacer clic en el ícono Redactar una nueva consulta (+) para abrir una nueva pestaña Sin título y ejecutarla.
  1. Haz clic en Ejecutar.

Muestra datos de los pedidos

A continuación, ejecuta una consulta que recupere las 10 primeras filas de datos de la tabla orders.

  1. Copia la siguiente consulta en el Editor de consultas:
SELECT * FROM `thelook_gcda.orders` limit 10;
  1. Haz clic en Ejecutar.

Muestra datos de los artículos pedidos

Tercero, ejecuta una consulta que recupere las 10 primeras filas de la tabla order_items.

  1. Copia la siguiente consulta en el Editor de consultas:
SELECT * FROM `thelook_gcda.order_items` limit 10;
  1. Haz clic en Ejecutar.

Muestra datos del clima

Cuarto, ejecuta una consulta que devuelva las 10 primeras filas de la tabla ghcnd_1763 que contiene la información del clima.

  1. Copia la siguiente consulta en el Editor de consultas:
SELECT * FROM `ghcn_daily.ghcnd_1763` limit 10;
  1. Haz clic en Ejecutar.

Muestra datos de productos

Finalmente, ejecuta una consulta que recupere las 10 primeras filas de la tabla products, usando alias para el nombre del producto y el ID.

  1. Copia la siguiente consulta en el Editor de consultas:
SELECT name AS product_name, id AS product_id FROM thelook_gcda.products LIMIT 10;

Esta consulta recupera los nombres de productos y los IDs de la tabla products en el conjunto de datos thelook_gcda. Obtiene un subconjunto de columnas en la tabla y devuelve solo los nombres de productos y los IDs usando alias para cambiar el nombre de las columnas que se muestran.

  1. Haz clic en Ejecutar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente. Reunir todo en un solo lugar

Conclusión

¡Muy bien!

Ahora tienes experiencia práctica en el uso de BigQuery, Dataplex y Analytics Hub para identificar fuentes de datos en BigQuery. Dataplex proporciona una interfaz fácil de usar para identificar fuentes de datos en entornos complejos, mientras que BigQuery te permite buscar tablas específicas y acceder a los datos necesarios para el análisis.

Con el uso eficaz de estas herramientas, encontraste los datos necesarios y obtuviste una vista previa de ellos con rapidez. Ayudaste a Marta a contar con todos los datos necesarios para completar su informe, que incluye una lista de los pedidos más recientes, la marca del producto y el rango de temperatura.

Estás en buen camino para comprender cómo encontrar conjuntos de datos en BigQuery, Dataplex y Analytics Hub.

Finaliza el lab

Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.

Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.