Checkpoints
Explore data in a table using data limiting
/ 10
Identify duplicate records using COUNT(DISTINCT)
/ 10
Use GROUP BY to identify number of items in category
/ 20
Filter the data using GROUP BY and HAVING
/ 20
Sample a BigQuery table using TABLESAMPLE
/ 20
Explore the order_items table
/ 20
Métodos de transformação na prática
- Informações gerais da atividade
- Cenário
- Configuração
- Tarefa 1: analisar os dados em uma tabela usando a limitação de dados
- Tarefa 2: identificar linhas duplicadas usando COUNT(DISTINCT name)
- Tarefa 3: usar GROUP BY para identificar o número de itens na categoria
- Tarefa 4: filtrar os dados usando GROUP BY e HAVING
- Tarefa 5: fazer a amostragem de uma tabela do BigQuery usando TABLESAMPLE
- Tarefa 6: analisar a tabela order_items
- Conclusão
- Finalize o laboratório
Conclua este laboratório prático usando um computador ou notebook.
Só 5 tentativas são permitidas por laboratório.
É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.
Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.
Para saber mais, confira as Dicas técnicas do laboratório.
Informações gerais da atividade
Como analista de dados em nuvem, você vai usar as transformações de dados para alterar o formato, a estrutura ou o conteúdo dos dados e, assim, prepará-los para o armazenamento e a análise.
Em geral, as técnicas de transformação de dados ajudam os profissionais de dados a entender melhor a distribuição, as características principais e a qualidade geral dos dados. Por isso, essas técnicas muitas vezes são a primeira etapa que os analistas seguem durante a análise detalhada dos dados.
Algumas técnicas de transformação comuns usadas para a análise detalhada de dados são limitação, amostragem e agregação.
A limitação de dados é uma técnica que restringe o número de linhas retornadas em uma consulta, sendo indicada quando o objetivo é limitar a quantidade de dados exibida; em alguns casos, pode melhorar a velocidade e o desempenho da consulta.
A amostragem de dados é uma técnica que seleciona um segmento de um conjunto de dados que seja representativo do conjunto de dados completo para melhor entender suas características
Já a agregação de dados é uma técnica usada para resumir os dados em um formato mais fácil de gerenciar.
Nesta atividade do laboratório, você vai conhecer diferentes maneiras de usar essas técnicas com SQL no BigQuery para analisar os dados e identificar possíveis problemas de qualidade nos dados.
Cenário
Como analista de dados na nuvem da TheLook eCommerce, você recebeu um convite para colaborar com uma equipe multidisciplinar que inclui especialistas em merchandising, logística e marketing. Essa equipe tem a tarefa de encontrar maneiras de melhorar o tempo de entrega e aumentar a satisfação dos clientes em toda a linha de produtos da TheLook eCommerce.
Você preparou um relatório que analisa o número de devoluções para a equipe, mas Meredith, a líder da área de produtos, disse que o número de produtos devolvidos pode estar incorreto.
Para descobrir o problemas, você recebeu a tarefa de analisar o conjunto de dados thelook_ecommerce, que inclui várias tabelas relacionadas a informações de produtos, pedidos e itens de cada pedido. Seu trabalho é identificar possíveis problemas, como dados duplicados, que podem afetar os resultados que a Meredith observou. Para isso, você vai usar SQL para limitar, fazer a amostragem e agregar os dados.
Para esta tarefa, primeiro você vai acessar a tabela de produtos. Depois, você vai recuperar o número total de linhas e o número de produtos com nomes diferentes Em terceiro lugar, você vai determinar o número de itens por categoria. Depois, você vai filtrar os dados para remover as categorias com um número pequeno de itens. Quinto, você vai fazer a amostragem da tabela de produtos. Por fim, você vai analisar os dados contidos na tabela order_items.
Configuração
Antes de clicar em "Começar o laboratório"
Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:
- Tempo restante
- O botão Abrir console do Google Cloud
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento. -
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.
Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.
Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta. -
Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.
Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.
- Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.
- Nas próximas páginas:
- Aceite os Termos e Condições
- Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
- Não se inscreva em testes gratuitos
Depois de alguns instantes, o console será aberto nesta guia.
Tarefa 1: analisar os dados em uma tabela usando a limitação de dados
Nesta tarefa, você vai analisar os dados de uma tabela usando a limitação de dados.
- No console do Google Cloud, no Menu de navegação (), selecione BigQuery.
Serão exibidos o Menu de navegação, o painel Explorer e o Editor de consultas.
- Expanda a lista de conjuntos de dados clicando na seta ao lado do ID do projeto.
- Role a página até o conjunto de dados thelook_ecommerce
- e expanda ele. As tabelas desse conjunto de dados são exibidas.
- Selecione a tabela products. O esquema da tabela é exibido e você pode conferir as informações e o esquema da tabela.
Agora, analise os dados executando uma consulta que retorna 10 linhas da tabela de produtos, o que pode ajudar você a gerar alguns insights sobre o conteúdo dessa tabela.
- No Editor de consultas, clique no ícone Escrever nova consulta (+). A guia Sem título é aberta.
- Copie e cole o seguinte comando na guia Sem título:
Essa consulta limita os resultados para as primeiras 10 linhas da tabela de produtos no conjunto de dados thelook_ecommerce.
- Clique em Executar.
O BigQuery também oferece um recurso para escolher uma consulta entre várias opções no painel do Editor de consultas, o que ajuda quando se tem várias consultas em uma única guia do editor.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Tarefa 2: identificar linhas duplicadas usando COUNT(DISTINCT name)
Nesta tarefa, você vai determinar o número total de linhas e o número de produtos com nomes diferentes na tabela products.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta retorna o número total de entradas na tabela de produtos e o número de produtos únicos.
- Clique em Executar.
No BigQuery, a função SQL de agregação COUNT(DISTINCT name)
é usada para calcular o número de valores únicos na coluna de nomes de um conjunto de dados, retornando o número de valores diferentes(únicos) nessa coluna.
Isso pode ajudar a identificar produtos duplicados na tabela. Identificar e corrigir dados duplicados é uma etapa importante na análise de dados, porque dados duplicados podem levar a resultados distorcidos e erros durante a análise.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Tarefa 3: usar GROUP BY para identificar o número de itens na categoria
Nesta tarefa, você vai determinar o número de itens por categoria na tabela de produtos agregando o número de produtos por categoria com a palavra-chave SQL GROUP BY
.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta agrupa os produtos na tabela de produtos por categoria e conta o número de produtos em cada categoria.
- Clique em Executar.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
Execute essa consulta novamente para identificar a que segmento cada item foi atribuído. Observe que category
foi substituído por segment
nas cláusulas SELECT
e GROUP BY
.
- Clique em Executar.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Tarefa 4: filtrar os dados usando GROUP BY e HAVING
Nesta tarefa, você vai filtrar os dados para remover as categorias com um número pequeno de itens antes de fazer a amostragem do conjunto de dados usando as palavras-chave SQL GROUP BY
e HAVING
.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta retorna as categorias com um grande número de itens. Atualmente, o limite está definido como 1000
, então apenas categorias com mais de mil itens serão retornadas. Você pode ajustar esse limite para mais ou para menos para gerar os resultados necessários.
- Clique em Executar.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Tarefa 5: fazer a amostragem de uma tabela do BigQuery usando TABLESAMPLE
Nesta tarefa, você vai usar a amostragem de dados para recuperar um subconjunto aleatório de linhas da tabela products.
A amostragem é indicada para diversos objetivos, como explorar os dados, testar consultas ou receber um panorama geral rápido de um conjunto de dados grande.
Ela retorna uma seleção aleatória de linhas evitando os custos associados com a verificação e o processamento de uma tabela inteira, isso porque a amostragem só lê um subconjunto dos dados, o que pode reduzir, e muito, o tempo e os recursos necessários para executar a consulta.
Ao contrário da cláusula LIMIT
que você usou em uma tarefa anterior, TABLESAMPLE
retorna um subconjunto aleatório de dados de uma tabela, ou seja, os resultados de uma consulta TABLESAMPLE
podem variar a cada execução.
O BigQuery não armazena em cache os resultados de consultas que incluem uma cláusula TABLESAMPLE
, isso porque os resultados de uma consulta de amostragem são sempre aleatórios, então armazená-los em cache não ajudaria em nada.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
- Clique em Executar.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Tarefa 6: analisar a tabela order_items
Nesta tarefa, você vai analisar os dados na tabela order_items.
- Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta retorna as primeiras 10 linhas da tabela order_items
.
-
Clique em Executar.
-
Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta retorna a contagem agregada dos pedidos em vários status.
-
Clique em Executar.
-
Crie uma nova consulta e cole o seguinte no Editor de consultas:
Essa consulta retorna o ID do usuário associado ao maior valor total de pedidos.
- Clique em Executar.
Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.
Conclusão
Bom trabalho!
Você analisou os dados e identificou problemas de qualidade nos dados de vendas. Essa é uma primeira etapa excelente para garantir que os dados de vendas usados na tomada de decisões estejam otimizados.
Primeiro, você analisou os dados usando a limitação para retornar um número de resultados limitado.
Segundo, você identificou linhas duplicadas usando a técnica de agregação COUNT(DISTINCT name)
.
Terceiro, você identificou o número de itens por categoria na tabela de produtos usando GROUP BY.
Quarto, você filtrou os dados usando GROUP BY
e HAVING
.
Quinto, você fez a amostragem da tabela para retornar um subconjunto aleatório dos dados.
Por fim, você analisou os dados contidos na tabela order_items.
Agora você entende como usar a limitação, amostragem e agregação de dados para entender melhor seus dados e o que é preciso em termos de transformação.
Finalize o laboratório
Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.
Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.