arrow_back

Dataproc: Qwik Start - Consola

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataproc: Qwik Start - Consola

Lab 30 minutos universal_currency_alt 1 crédito show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP103

Labs de autoaprendizaje de Google Cloud

Descripción general

Dataproc es un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más sencilla y rentable. Las operaciones que solían tardar horas o días ahora tardan segundos o minutos. Crea clústeres de Dataproc con rapidez y cambia el tamaño en cualquier momento. Así, la posibilidad de que las canalizaciones de datos superen la capacidad de los clústeres ya no será una preocupación.

En este lab, aprenderás a usar la consola de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo simple de Apache Spark en el clúster y modificar la cantidad de trabajadores en él.

Actividades

En este lab, aprenderás a realizar las siguientes tareas:

  • Crear un clúster de Dataproc en la consola de Google Cloud
  • Ejecutar un trabajo simple de Apache Spark
  • Modificar la cantidad de trabajadores en el clúster

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Confirma que la API de Cloud Dataproc esté habilitada

Para crear un clúster de Dataproc en Google Cloud, debes habilitar la API de Cloud Dataproc. Realiza lo siguiente para confirmar que la API esté habilitada:

  1. Haz clic en el menú de navegación > APIs y servicios > Biblioteca:

  2. Escribe Cloud Dataproc en el diálogo Buscar APIs y servicios. La API de Cloud Dataproc aparecerá en los resultados de la búsqueda de la consola.

  3. Haz clic en API de Cloud Dataproc para mostrar el estado de la API. Si la API no está habilitada, haz clic en el botón Habilitar.

Una vez que se habilite la API, continúa con las instrucciones del lab.

Permiso para la cuenta de servicio

Para asignarle el permiso de almacenamiento a la cuenta de servicio, que se requiere para crear un clúster, sigue estos pasos:

  1. Ve al menú de navegación > IAM y administración > IAM.

  2. Haz clic en el ícono de lápiz en la cuenta de servicio compute@developer.gserviceaccount.com.

  3. Haz clic en el botón + AGREGAR OTRO ROL. Selecciona el rol Administrador de almacenamiento.

Una vez que hayas seleccionado el rol Administrador de almacenamiento, haz clic en Guardar.

Tarea 1. Crea un clúster

  1. En la consola de Cloud Platform, selecciona el menú de navegación > Dataproc > Clústeres y, luego, haz clic en Crear clúster.

  2. Haz clic en Crear en Clúster en Compute Engine.

  3. Configura los siguientes campos para tu clúster y acepta los valores predeterminados de todos los otros campos:

Nota: En la sección de configuración de nodos, asegúrate de que tanto el nodo principal como los nodos trabajadores se hayan configurado con la serie y el tipo de máquina correctos.
Campo Valor
Nombre example-cluster
Región
Zona
Serie de máquinas E2
Tipo de máquina e2-standard-2
Cantidad de nodos trabajadores 2
Tamaño del disco principal 30 GB
Solo IP internas Anula la selección de “Configurar todas las instancias para tener solo direcciones IP internas”
Nota: Zona se refiere a un espacio de nombres multirregional especial que puede implementar instancias en todas las zonas de procesamiento de Google a nivel mundial. Además, puedes especificar distintas regiones, como us-central1 o europe-west1, para aislar recursos (como las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que Cloud Dataproc usa en la región especificada por el usuario.
  1. Haz clic en Crear para generar el clúster.

El nuevo clúster aparecerá en la lista de clústeres. Crearlo puede llevar algunos minutos. El estado del clúster aparecerá como Aprovisionando hasta que esté listo para usarse y después cambiará a En ejecución.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear un clúster de Dataproc

Tarea 2: Envía un trabajo

Haz lo siguiente para ejecutar un trabajo de Spark de muestra:

  1. Haz clic en Trabajos en el panel izquierdo para cambiar a la vista de trabajos de Dataproc; luego haz clic en Enviar trabajo.

  2. Configura los siguientes campos para actualizar el trabajo. Acepta los valores predeterminados de todos los otros campos:

Campo Valor
Región
Clúster example-cluster
Tipo de trabajo Spark
Clase principal o jar org.apache.spark.examples.SparkPi
Archivos JAR file:///usr/lib/spark/examples/jars/spark-examples.jar
Argumentos 1,000 (esto configura la cantidad de tareas)
  1. Haz clic en Enviar.
Nota: Cómo calcula el trabajo el número pi: El trabajo de Spark calcula un valor aproximado del número pi con el método Monte Carlo. Permite generar coordenadas x, y en un plano cartesiano que da forma a un cuadrado unitario que encierra un círculo. El argumento de entrada (1,000) determina la cantidad de pares x, y que se generarán; cuantos más pares se generen, mayor será la precisión de la estimación. Se aprovechan los nodos trabajadores de Cloud Dataproc para procesar paralelamente la estimación. Para obtener más información, consulta Estimating Pi using the Monte Carlo Method y JavaSparkPi.java en GitHub.

Tu trabajo debería aparecer en la lista de Trabajos, que muestra los trabajos de tu proyecto con el clúster, el tipo y el estado actual. El estado del trabajo aparece como En ejecución y cambia a Completado cuando se completa.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Enviar un trabajo

Tarea 3: Mira el resultado del trabajo

Sigue estos pasos para ver el resultado del trabajo finalizado:

  1. Haz clic en el ID de trabajo, en la lista de Trabajos.

  2. Marca la casilla de ON para LINE WRAP o desplázate hacia la derecha para ver el valor calculado de pi. El resultado, con LINE WRAP con la opción ON, debería verse así:

Resultado

El trabajo calculó un valor aproximado de pi en forma correcta.

Tarea 4. Actualiza un clúster para modificar la cantidad de trabajadores

Sigue estos pasos para cambiar la cantidad de instancias de trabajadores de tu clúster:

  1. En el panel de navegación izquierdo, selecciona Clústeres para regresar a la vista de clústeres de Dataproc.

  2. Haz clic en example-cluster en la lista de Clústeres. De forma predeterminada, la página muestra una descripción general del uso de CPU de tu clúster.

  3. Haz clic en Configuración para mostrar la configuración actual de tu clúster.

  4. Haz clic en Editar. Ahora, puedes editar la cantidad de nodos trabajadores.

  5. Ingresa 4 en el campo Nodos trabajadores.

  6. Haz clic en Guardar.

El clúster ya se actualizó. Confirma la cantidad de instancias de VM en el clúster.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Actualizar un clúster
  1. Para volver a ejecutar el trabajo con el clúster actualizado, deberías hacer clic en Trabajos en el panel izquierdo y, luego, en ENVIAR TRABAJO.

  2. Configura los mismos campos que configuraste en la sección Enviar un trabajo:

Campo Valor
Región
Clúster example-cluster
Tipo de trabajo Spark
Clase principal o jar org.apache.spark.examples.SparkPi
Archivos JAR file:///usr/lib/spark/examples/jars/spark-examples.jar
Argumentos 1,000 (esto configura la cantidad de tareas)
  1. Haz clic en Enviar.

Tarea 5: Pon a prueba tus conocimientos

A continuación, se presentan algunas preguntas de opción múltiple para reforzar tus conocimientos de los conceptos de este lab. Trata de responderlas lo mejor posible.

¡Felicitaciones!

Ahora ya sabes cómo usar la consola de Google Cloud para crear y actualizar un clúster de Dataproc y, luego, enviar un trabajo en ese clúster.

Próximos pasos y más información

Este lab también forma parte de una serie de labs denominada Qwik Starts. Estos labs están diseñados para ofrecerte una visión general de las numerosas funciones disponibles en Google Cloud. Busca “Qwik Starts” en el catálogo de labs para elegir el próximo lab que desees completar.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 21 de marzo de 2024

Prueba más reciente del lab: 21 de marzo de 2024

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.