arrow_back

Cómo trabajar con Cloud Dataprep en Google Cloud

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Cómo trabajar con Cloud Dataprep en Google Cloud

Lab 1 hora universal_currency_alt 1 crédito show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Este lab se desarrolló junto con nuestro socio Alteryx. Es posible que tu información personal se comparta con Alteryx, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.

GSP050

Labs de autoaprendizaje de Google Cloud

Descripción general

Cloud Dataprep es la herramienta de autoservicio de Google para preparar datos, creada en colaboración con Alteryx. En este lab, aprenderás a limpiar y enriquecer varios conjuntos de datos con Cloud Dataprep. Los ejercicios del lab se basan en una situación de caso de uso simulada.

Situación de caso de uso:

Trabajas para una empresa de servicios técnicos que vende tres productos de suscripción mensual:

  • Plata (precio: USD 9.99/mes)
  • Oro (precio: USD 14.99/mes)
  • Platino (precio: USD 29.99/mes)

A veces, la empresa ofrece descuentos promocionales, por lo que los precios de algunos productos podrían ser levemente inferiores a los mencionados anteriormente. Tu objetivo principal es proporcionar un análisis de la actividad de ventas según el código postal en un transcurso de tres años.

Para esto, deberás unir tu fuente de datos de contacto de los clientes (en la que se incluye la información del código postal) con los datos de las ventas de tu fuente de datos de compras. Una vez unidos, deberás agregar los resultados.

Qué aprenderás

En este lab, aprenderás a realizar las siguientes tareas:

  • Cómo limpiar y perfilar datos con Cloud Dataprep
  • Cómo combinar varios conjuntos de datos con Cloud Dataprep
  • Cómo calcular los resultados de fórmulas en Cloud Dataprep

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1. Abre Google Cloud Dataprep

  1. Ve al Menú de navegación de la consola de Cloud y, en ANALYTICS, selecciona Dataprep.

  2. Para acceder a Cloud Dataprep, confirma que aceptas las Condiciones del Servicio de Google Dataprep y, luego, haz clic en Aceptar.

  3. Haz clic en la casilla de verificación y, luego, en Aceptar y continuar cuando se te solicite compartir información de la cuenta con Alteryx.

  4. Haz clic en Permitir para que Alteryx pueda acceder a tu proyecto.

  5. Selecciona tus credenciales del lab para acceder y haz clic en Permitir.

  6. Marca la casilla de verificación y haz clic en Aceptar para aceptar las Condiciones del Servicio de Alteryx.

  7. Asimismo, si se te solicita que utilices la ubicación predeterminada para el bucket de almacenamiento, haz clic en Continuar.

  8. Para los usuarios nuevos, se iniciará un instructivo en el que se te pedirá seleccionar conjuntos de datos. Sal de esta pantalla presionando Cancelar o cerrándola.

  9. Haz clic en el ícono de Dataprep, que aparece en la esquina superior izquierda, para ir a la pantalla principal.

Tarea 2. Recupera archivos de conjuntos de datos

En esta sección, agregarás los archivos de actividad de ventas a un bucket de almacenamiento que Dataprep creó para ti.

  1. Regresa a la consola de Cloud.
Nota: Si cerraste la consola de Cloud, haz clic en el ícono de Google Cloud ubicado en la esquina inferior izquierda para volver a abrirla.
  1. Obtén el nombre de tu bucket. En el menú de navegación, selecciona Cloud Storage > Bucket.

  2. Toma nota del nombre del bucket de Dataprep para utilizarlo en el siguiente paso.

  3. En la línea de comandos de Cloud Shell, ejecuta el siguiente comando tras sustituir [YOUR-BUCKET-NAME] con el nombre del bucket de Dataprep:

gsutil cp -r gs://spls/gsp050 gs://[YOUR-BUCKET-NAME]

Deberías obtener un resultado similar al siguiente:

Copying gs://spls/gsp050/lab_customers.csv [Content-Type=text/csv]... \ [4 files][ 8.5 MiB/ 8.5 MiB] Operation completed over 4 objects/8.5 MiB.

Haz clic en Revisar mi progreso para verificar el objetivo. Recupera archivos de conjuntos de datos

Tarea 3. Crea un flujo

Vuelve a la pestaña Cloud Dataprep. Tendrás que crear un flujo para derivar los datos. Un flujo es un conjunto de datos relacionados y las conexiones entre ellos.

  1. Haz clic en Crear flujo en la esquina superior derecha:
  1. Asigna el nombre Qwiklab1 al flujo, deja la descripción en blanco y, luego, haz clic en Aceptar.

En este momento, se crea tu flujo. Para guiarte, Dataprep crea algunos marcadores de posición en el flujo que te ayudarán a comenzar. El primer paso es importar y agregar datos a Dataprep y al flujo.

  1. Haz clic en + debajo de Dataset para agregar una nueva fuente de datos y haz clic en el vínculo Importar conjuntos de datos.

  2. En el menú de navegación izquierdo, haz clic en Cloud Storage > dataprep-staging-xxx… > gsp050 para acceder a los datos de muestra que almacenaste en la sección anterior.

  3. Haz clic en + junto a cada archivo de la lista. Cuando hagas clic en un archivo, este se moverá a la derecha de la pantalla. Haz clic en Import & Add to Flow para agregar los conjuntos de datos al flujo:

Cloud Dataprep te lleva nuevamente a la página Flow View, que ahora contiene los conjuntos de datos que agregaste. Se crearon marcadores de posición adicionales para la receta y la salida.

La página Flow View que contiene los conjuntos de datos agregados

Tarea 4. Limpia los datos del cliente

Ahora que tienes los datos, el siguiente paso es diseñar una receta de preparación para limpiar el conjunto de datos del cliente. En la plantilla, ya existe una receta agregada que utiliza los datos de lab_2013_transactions.csv. Dejemos de lado esta receta y creemos la nuestra.

  1. Para crear una nueva receta, haz lo siguiente:
  • Haz clic en el ícono de suma (+) junto a lab_customers.csv.
  • Luego, haz clic en Add new Recipe.

2 conjuntos de datos, lab_2015_transactions.csv y lab_customers.csv, con el menú expandido exhibido para lab_customers.csv

  1. Haz clic con el botón derecho en este nodo nuevo de Receta.
  • En el menú desplegable, selecciona Edit name and description.
  • Cambia el nombre por lab_customers y haz clic en Aceptar.
  1. Se creará un nuevo nodo de Receta y se abrirá un panel en el lado derecho, mostrando información sobre la receta, con los datos y cualquier paso de transformación existente.

  2. Haz clic en el botón azul Edit Recipe. (O, directamente, puedes hacer doble clic en el mismo nodo de receta).

Cloud Dataprep abrirá “Transformer Grid”. Esta es una interfaz similar a una hoja de cálculo, en la que puedes diseñar los pasos de la receta de preparación de datos. En la página de la interfaz Transformer, compilarás tu receta de transformación y verás los resultados aplicados a la muestra. Cuando estés satisfecho con el resultado, ejecuta el trabajo con tu conjunto de datos.

Cada columna tiene un nombre y un ícono que especifica el tipo de datos inferidos. Los tipos de datos posibles se muestran cuando haces clic en el ícono ubicado a la izquierda del nombre de la columna:

El menú expandido para la columna de column_id, con la opción Más tipos destacada y las opciones del submenú asociado exhibido

Cuando hagas clic en una opción de la columna, se abrirá el panel Detalles a la derecha.

El panel Detalles es dinámico y contiene información sobre lo que hayas seleccionado, incluso información sobre la columna o sugerencias de transformaciones. Haz clic en el ícono X en la esquina superior derecha del panel Details para cerrarlo por el momento.

En los siguientes pasos, explorarás los datos en la vista de cuadrícula y aplicarás los pasos de transformación a tu receta.

Cuando abras Transformer Grid, Cloud Dataprep perfilará automáticamente los contenidos de tu conjunto de datos y generará histogramas de columnas, además de indicadores de calidad de los datos. Esta información de perfil puede usarse para guiar el proceso de preparación de los datos.

Aplica un filtro

  1. Desplázate hacia la derecha hasta la columna start_date. Observa la barra horizontal en la columna superior:

Una barra tricolor horizontal sobre la columna start_date. Con los colores azul, rojo y gris.

Nota: Puedes seguir adelante si la barra roja no aparece en la columna “start_date”.

Esta es la barra de calidad de los datos. La parte verde representa los valores válidos, mientras que la gris representa los valores faltantes o nulos. Una barra roja indica que los datos no coinciden con el tipo de datos. Si se hace clic en las secciones de la barra de calidad de los datos, se generarán sugerencias que incluirán condicionales de calidad de los datos. Estos condicionales prueban si cada registro es válido, no válido o si está vacío, según la sección de la barra en la que hizo clic.

Mediante el uso de start_date y end_date como filtros, agregarás una transformación para quitar los contactos donde la columna start_date esté vacía.

  1. Haz clic en la parte gris de la barra de calidad de los datos correspondiente a la columna start_date.

A la derecha, Cloud Dataprep genera una lista de transformaciones sugeridas según tu selección. Puedes colocar el cursor sobre cualquiera de las tarjetas de sugerencia y Dataprep te mostrará una vista previa de cómo se verán tus datos si las aplicas. Si seleccionas una tarjeta, Cloud Dataprep actualiza la cuadrícula para que muestre una vista previa de esta transformación.

  1. Haz clic en Agregar en las tarjeta de sugerencia “Delete rows with missing values in start_date” a la derecha.

Las filas destacadas en rojo se quitaron de tu conjunto de datos.

Completa los valores faltantes

Observa la columna end_date. Según la barra de calidad de los datos, hay una gran cantidad de filas con valores faltantes. Para trabajar fácilmente con esta columna, inserta un valor vacío (January 01, 2050) en las filas vacías.

  1. Haz clic en la sección gris de la barra de calidad de los datos de la columna end_date.

Esto generará otro conjunto de transformaciones sugeridas. Deberías ver la sugerencia Set missing values to NULL(). En este caso, Dataprep no sabe el valor exacto que quieres establecer, entonces, crea una plantilla para que tú la modifiques.

  1. Haz clic en Editar sobre cualquier tarjeta de sugerencia.

Esto abrirá el compilador Add Step. Las transformaciones sugeridas de Cloud Dataprep ya se propagaron; sin embargo, puedes realizar ajustes al código.

  1. En el cuadro Formula, reemplaza el valor NULL() por '2050/1/1' (con las comillas). La fórmula completa debería verse de la siguiente manera:
IFMISSING($col, '2050/01/01')

La casilla Editar con un fórmula mostrando la fórmula completa en el cuadro de texto Fórmula

  1. Haz clic en Add.

Ya se solucionaron los problemas de calidad en el conjunto de datos lab_customers, por lo que la parte gris de la barra de calidad de los datos desapareció.

Tarea 5. Fusiona varios conjuntos de datos de transacciones

Ahora, cambiemos el tema y trabajemos con los conjuntos de datos de transacciones.

  • Haz clic en el nombre del flujo QWIKLAB1 en la parte superior de la pantalla:

Título de flujo con Qwiklab1 destacado

Esto te hará regresar a la página Flow View.

Crea un solo conjunto de datos que una los conjuntos de datos de transacciones de 2013, 2014 y 2015.

  1. Haz clic en el conjunto de datos lab_2013_transactions.

  2. Haz clic en el signo más (+) y, luego, en Add new Recipe.

Cloud Dataprep crea una nueva receta y un conjunto de datos derivado llamado Untitled recipe.

  1. Haz clic con el botón derecho en este conjunto de datos derivado nuevo. En el menú desplegable, selecciona Edit name and description.

  2. Cambia el nombre a Combined Transactions y haz clic en Aceptar.

Vista del flujo con 2 conjuntos de datos: lab_2013_transactions.csv y lab_2014_transactions.csv, además de la nueva receta Combined Transactions

  1. Haz doble clic en Combined Transactions para editar la receta. Esto abrirá la receta en Transformer Grid. Ten en cuenta que los datos en la cuadrícula corresponden a los datos estructurados del conjunto de datos lab_2013_transactions.csv.

Combina varios conjuntos de datos con el mismo esquema a través de una transformación por unión.

  1. Antes de realizar cualquier transformación, observa la esquina inferior izquierda de la pantalla de Transformer Grid. Aquí puedes ver los metadatos:

Los metadatos muestran 5 columnas, 26,476 filas y 3 tipos de datos

Los metadatos muestran un breve resumen de los datos cargados en la cuadrícula. Recuerda que los datos cargados son una muestra de hasta 10 MB del conjunto de datos completo.

  1. Observa la parte superior de la interfaz Transformer, cerca del nombre de la receta. Aquí puedes ver las muestras que son visibles actualmente.
Nota: Según la versión, se puede mostrar de diferente manera.

Se muestra la sección con el nombre de la receta que indica los datos iniciales

O

Se muestra la sección con el nombre de la receta que indica los datos completos

En la muestra exhibida están los datos iniciales de la fuente. Para conjuntos de datos pequeños (menos de 10 MB), Dataprep carga todos los conjuntos de datos en la muestra de datos inicial.

  1. Haz clic en el ícono Receta en la parte superior.

Ícono de receta

  1. Luego, haz clic en Add New Step.

  2. Escribe “Union” en el campo de búsqueda y haz clic en el resultado para ir a la herramienta Union.

El campo de salida de Union muestra el esquema de salida de tu conjunto de datos. Cada cuadro representa una columna. Cloud Dataprep basa el esquema de salida en el esquema del conjunto de datos desde el que se inició la transformación por unión. En este caso, las columnas en el conjunto de datos de “Combined Transactions” determinan las columnas que aparecerán en la salida combinada.

  1. Haz clic en Agregar datos.

  2. Marca el conjunto de datos lab_2014_transactions. En el menú desplegable de la parte inferior izquierda, selecciona Align By Name y haz clic en Aplicar.

  3. Haz clic en Add to Recipe para combinar los conjuntos de datos. Después de agregar la unión a tu secuencia de comandos, observa la columna transaction_date.

Este conjunto de datos incluye registros desde enero de 2013 hasta diciembre de 2014.

  1. Ya uniste 2 de los 3 conjuntos de datos. Verifica los metadatos; también deberías ver filas adicionales.

Los metadatos muestran 5 columnas, 68,597 filas y 3 tipos de datos

Tarea 6. Modifica los pasos de la receta

Mientras trabajas con los datos, es posible que ajustes o quites ciertas transformaciones. Dataprep te permite editar el trabajo fácilmente. En este caso, uniste 2 de los 3 conjuntos de datos, pero, en lugar de agregar un paso nuevo para unir el conjunto de datos que falta, simplemente puedes editar lo que ya hiciste.

  1. Haz clic en el ícono Undo para deshacer la última acción, en este caso, el paso de unión.

Observa que, ahora, tu receta está vacía. La cuadrícula y los metadatos también se actualizan a fin de reflejar el estado original.

  1. Haz clic en el ícono Redo para volver a aplicar el paso de unión.

  2. En el panel Recipe, haz clic con el botón derecho en el paso de unión y selecciona Edit.

  3. Esto abrirá la herramienta Union nuevamente. Esta vez, haz clic en Add data nuevamente y marca el conjunto de datos lab_2015_transactions. En el menú desplegable de la parte inferior izquierda, selecciona Align By Name y haz clic en Aplicar.

  4. Revisa las asignaciones de columna a columna. Haz clic en Add to Recipe para combinar los tres conjuntos de datos.

  5. Después de agregar la unión a tu secuencia de comandos, observa la columna transaction_date.

Este conjunto de datos incluye registros desde enero de 2013 hasta diciembre de 2015. ¿Cuántas filas se observan ahora en los metadatos?

  1. Haz clic en el nombre del flujo QWIKLAB1 para regresar a la página Flow View.

La visualización del flujo se actualiza para mostrar cómo los tres conjuntos de datos de transacciones se combinan y, así, formar el conjunto de datos Combined Transactions:

Vista del flujo de la receta Combined Transactions para los tres conjuntos de datos

Tarea 7. Une los datos de las transacciones con los datos de los clientes

Ahora que los conjuntos de datos están combinados, mejorarás los datos de transacciones con información sobre el lugar donde se hizo cada compra. Para esto, une los datos del cliente con los datos de las transacciones. Cuando hagas una unión, trata el conjunto de datos más grande como el conjunto de datos principal, o bien como el "lado izquierdo" de la unión. El conjunto de datos más pequeño debería ser el conjunto de datos de detalles, o bien "el lado derecho" de la unión. En Cloud Dataprep, el conjunto de datos desde el que se inicia una unión se convierte automáticamente en el conjunto de datos principal.

  1. Haz doble clic en Combined Transactions para editar la receta nuevamente.

  2. Haz clic en el ícono Join en la barra de herramientas Transformer para abrir la herramienta Join.

Ícono Join

Nota: También puedes activar la herramienta Join, como lo hiciste anteriormente, con el panel Recipe y New Step y buscar “Join”. Existen varias formas de crear transformaciones en Dataprep.
  1. Haz clic en el conjunto de datos lab_customers para agregar el otro conjunto de datos y, luego, haz clic en Aceptar.

  2. En la siguiente pantalla, edita la pestaña Join Keys y las condiciones. A la izquierda, se muestra una vista previa de las claves de unión que se unieron. A la derecha, encontrarás opciones para editar el tipo de unión, las claves de unión y la vista previa de las estadísticas de la unión. Dataprep intentará inferir las claves de unión correctas automáticamente según los valores comunes de los conjuntos de datos.

Opcionalmente, puedes editar las claves de unión. Coloca el cursor sobre la sección Join keys. Haz clic en el lápiz (ícono de edición) si deseas modificar la clave de unión o en Add para agregar claves de unión adicionales.

Para estos conjuntos de datos, Cloud Dataprep eligió una unión interna en la columna customer_id. Esto significa que el conjunto de datos de salida estará formado por aquellos registros que tengan el mismo customer_id.

  1. Haz clic en Next.

  2. En la siguiente pantalla, podrás elegir qué columnas conservar o descartar luego de la unión. En el panel Output Columns, marca los siguientes campos para agregar esas columnas a la unión:

    • customer_id (current)
    • transaction_date
    • ticket_price
    • product
    • address_state
    • address_zip
    • region
    • start_date
    • end_date

Se descartarán todas las columnas que no se marquen. Los resultados se verán de la siguiente manera:

El panel de las columnas de Salida muestra varios títulos de columnas marcados y desmarcados

  1. Haz clic en Review para obtener una vista previa del resultado de tu unión en Transformer Grid.
  2. Haz clic en Add to Recipe.

Tarea 8. Crea nuevas columnas y cambia sus nombres

Por último, querrás realizar una limpieza adicional de los datos para tu informe. Deberás crear algunas columnas con los valores necesarios que quiere visualizar.

Veamos una forma diferente de autorizar transformaciones en Dataprep: desde los menús de columna.

  1. Haz clic en la flecha desplegable junto a transaction_date > Extract > Datetime > Year (YYYY).

Aparecerá un nuevo compilador de fórmulas que se completó previamente con las acciones seleccionadas. También se generará una vista previa en la cuadrícula.

  1. Haz clic en Add.

Observa que se creó una columna nueva, llamada year_transaction_date. En el paso anterior, le podrías haber asignado un nombre a la nueva columna mientras editaba la transformación. Si no le asignas un nombre, Dataprep generará una columna nueva basada en el paso de transformación que realizaste, o le asignará un número de columna si no seleccionaste ninguna columna de origen.

  1. Le cambiarás el nombre a esta columna manualmente. Haz clic en la flecha desplegable junto a year_transaction_date > Rename.

  2. Ingresa activity_year en el campo. Haz clic en Add para aceptar los cambios.

Ten en cuenta que puedes cambiar el nombre a varias columnas con esta transformación haciendo clic en Add para agregar más asignaciones.

Tarea 9. Publica los resultados en BigQuery

Acabas de terminar de preparar los datos y tienes todo listo para generar un archivo de resultados en Cloud Storage. Cloud Dataprep ejecuta tu receta de transformación de datos para generar un archivo de salida a través del motor BigQuery.

  1. Haz clic en Run en la esquina superior derecha de Transformer Grid.

  2. En el diálogo Run Job, puedes establecer la configuración de ejecución del trabajo y el destino de salida. Según la configuración predeterminada, Cloud Dataprep creará un archivo CSV en Cloud Storage.

  3. Coloca el cursor sobre la acción de publicación existente y, a tu derecha, selecciona Edit.

  4. Haz clic en la pestaña de BigQuery ubicada a la izquierda.

  5. Selecciona la base de datos de Dataprep y haz clic en el botón Create a new table, ubicado a la derecha.

  6. Ingresa transactions_by_customer como el nuevo nombre de la tabla y selecciona Append to this table every run como la opción de escritura.

  7. Haz clic en Update, en la parte inferior, para actualizar la configuración de salida.

  8. Ahora, haz clic en Run para comenzar con tu trabajo de BigQuery. El proceso tardará unos minutos. Puedes ver el procesamiento del trabajo en la página "Jobs" de Dataprep. Cuando finalices, tus datos ya estarán cargados en la tabla nueva de BigQuery y verás un mensaje de confirmación similar al siguiente.

El estado que se muestra como completado para la receta Combined Transactions en la página de trabajos de flujo

  1. Coloca el cursor sobre el trabajo terminado y haz clic en Perfil para ver tus datos organizados. Debería parecerse a lo siguiente:

La página de Perfil con pestañas mostrando secciones para todos los datos y el perfil de resultados por columna

  1. Puedes ver tus resultados realizando una consulta directa a BigQuery. Desde la consola de Google Cloud, navega hasta ANALYTICS > BigQuery. Haz clic en el conjunto de datos de Dataprep.

  2. Ingresa select * from Dataprep.transactions_by_customer; en el Editor de consultas. Haz clic en Ejecutar para ver los datos publicados.

Cloud Dataprep es así de sencillo. Es fácil limpiar y enriquecer varias fuentes de datos a través de una interfaz intuitiva y visual.

Haz clic en Revisar mi progreso para verificar el objetivo. Publica los resultados en BigQuery

¡Felicitaciones!

De esta manera finaliza el lab Cómo trabajar con Google Cloud Dataprep. En este lab, comenzaste creando nuevos flujos y transformando datos. Luego, aprendiste a utilizar la IU de Dataprep para filtrar datos desordenados, fusionar y unir varios archivos, y crear y cambiar el nombre de columnas. Por último, generaste un archivo de resultados y lo exportaste a Google Cloud Storage.

Próximos pasos y más información

Puedes continuar explorando la edición profesional de Dataprep con una prueba gratuita por 30 días aquí. Asegúrate de salir de tu cuenta temporaria de lab y registrarte con un correo electrónico de Google Cloud válido. Las funciones avanzadas, como conectividad adicional, organización de canalización y calidad de datos adaptativa también están disponibles en la edición premium que puedes explorar en Google Cloud Marketplace.

Lee las guías prácticas para obtener más información sobre cómo detectar, limpiar y mejorar los datos con Google Dataprep.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Actualización más reciente del manual: 27 de septiembre de 2023

Prueba más reciente del lab: 27 de septiembre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.