arrow_back

Dados meteorológicos no BigQuery

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dados meteorológicos no BigQuery

Lab 45 minutos universal_currency_alt No cost show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP009

Laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você analisará informações climáticas com o BigQuery e usará dados meteorológicos com outros conjuntos de dados.

Conteúdo

Neste laboratório, você aprenderá a:

  • fazer consultas interativas no console do BigQuery;
  • combinar e executar análises em vários conjuntos de dados.

Introdução

Neste laboratório, usaremos dois conjuntos de dados públicos no BigQuery: dados meteorológicos da Administração Oceânica e Atmosférica Nacional dos EUA (NOAA, na sigla em inglês) e dados de reclamações de cidadãos de Nova York.

Você conhecerá vários aspectos do Google Cloud que são muito úteis para cientistas:

  1. Computação sem servidor. Não é preciso fazer o download de dados para sua máquina. O conjunto de dados permanece na nuvem enquanto você trabalha com ele.
  2. Facilidade de uso. Execute consultas SQL ad hoc no seu conjunto de dados sem precisar preparar os dados, como índices, de antemão. Isso facilita muito a exploração dos dados.
  3. Escalonamento. Realize a exploração de dados em conjuntos extremamente grandes de maneira interativa. Não é preciso usar uma amostra dos dados para agilizar o trabalho.
  4. Possibilidade de compartilhamento. Você pode executar consultas em diferentes conjuntos de dados sem problemas. Com o BigQuery, é possível compartilhar conjuntos de dados facilmente. Você também pode manter seus dados privados ou compartilhá-los apenas com pessoas específicas. Nem todos os dados precisam ser públicos.

Como resultado, você poderá descobrir quais tipos de reclamações municipais têm relação com o clima. Será possível constatar, por exemplo, que reclamações sobre aquecedores residenciais são mais comuns no inverno:

Gráfico de dispersão de chamadas diárias para o 311 sobre calor e temperatura média diária

Pré-requisitos

Este é um laboratório de nível fundamental que exige alguma experiência com BigQuery e SQL. Se você nunca trabalhou com BigQuery ou MySQL, o laboratório autoguiado BigQuery: Qwik Start - Console pode ajudar você a se atualizar sobre esses serviços do Google Cloud.

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • O botão Abrir Console do Cloud
    • Tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações se forem necessárias
  2. Clique em Abrir Console do Google. O laboratório ativa recursos e depois abre outra guia com a página Fazer login.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Caso seja preciso, copie o Nome de usuário no painel Detalhes do laboratório e cole esse nome na caixa de diálogo Fazer login. Clique em Avançar.

  4. Copie a Senha no painel Detalhes do laboratório e a cole na caixa de diálogo Olá. Clique em Avançar.

    Importante: você precisa usar as credenciais do painel à esquerda. Não use suas credenciais do Google Cloud Ensina. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  5. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do GCP vai ser aberto nesta guia.

Observação: para ver uma lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Ícone do menu de navegação

Tarefa 1. Analise dados meteorológicos

Abrir o console do BigQuery

  1. No Console do Google Cloud, selecione o menu de navegação > BigQuery:

Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e as notas de versão.

  1. Clique em OK.

O console do BigQuery vai abrir.

  1. No painel Explorer, clique em + ADICIONAR.

A janela "Adicionar dados" será exibida.

  1. Clique em Marcar um projeto com estrela por nome em "Outras fontes".

  2. Digite bigquery-public-data e clique em MARCAR COM ESTRELA.

No console do BigQuery, há dois projetos no painel "Explorer", um deles com o ID do projeto do laboratório e o outro chamado bigquery-public-data.

  1. No painel Explorer do console do BigQuery, expanda bigquery-public-data > noaa_gsod e selecione a tabela gsod2014.

  2. Na janela da tabela "gsod2014", clique na guia Visualização.

Visualizar página com guias

  1. Examine as colunas e alguns dos valores de dados.

  2. No EDITOR de consultas, cole o código abaixo:

SELECT -- Create a timestamp from the date components. stn, TIMESTAMP(CONCAT(year,"-",mo,"-",da)) AS timestamp, -- Replace numerical null values with actual null AVG(IF (temp=9999.9, null, temp)) AS temperature, AVG(IF (wdsp="999.9", null, CAST(wdsp AS Float64))) AS wind_speed, AVG(IF (prcp=99.99, 0, prcp)) AS precipitation FROM `bigquery-public-data.noaa_gsod.gsod20*` WHERE CAST(YEAR AS INT64) > 2010 AND CAST(MO AS INT64) = 6 AND CAST(DA AS INT64) = 12 AND (stn="725030" OR -- La Guardia stn="744860") -- JFK GROUP BY stn, timestamp ORDER BY timestamp DESC, stn ASC
  1. Clique em EXECUTAR. Confira o resultado e tente identificar o que essa consulta faz.

Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.

Analise dados meteorológicos

Tarefa 2. Analise os dados das reclamações de cidadãos de Nova York

  1. No painel "Explorer" do console do BigQuery, selecione o projeto recém-adicionado, bigquery-public-data, expanda o conjunto de dados new_york e escolha a tabela 311_service_requests.

  2. Clique na guia Visualização. Seu console mostrará o seguinte:

Página com a guia de visualização "311_service_requests"

  1. Examine as colunas e alguns dos valores de dados.

  2. Se o editor estiver fechado, clique no ícone "+" (Criar nova consulta).

  3. Cole o seguinte no EDITOR de consultas:

SELECT EXTRACT(YEAR FROM created_date) AS year, complaint_type, COUNT(1) AS num_complaints FROM `bigquery-public-data.new_york.311_service_requests` GROUP BY year, complaint_type ORDER BY num_complaints DESC
  1. Clique em EXECUTAR.

  2. Confira os resultados para identificar as reclamações mais comuns. Mais adiante neste laboratório, você tentará descobrir se essas reclamações têm relação com o clima.

Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.

Analise os dados das reclamações de cidadãos de Nova York

Tarefa 3. Salve a nova tabela de dados meteorológicos

  1. No painel "Explorer" do console do BigQuery, clique nos três pontos ao lado do ID do projeto e selecione Criar conjunto de dados.

  2. Na caixa de diálogo "Criar conjunto de dados", defina o ID do conjunto de dados como demos e deixe as outras opções com os valores padrão.

  3. Clique em Criar conjunto de dados. Agora o projeto tem um conjunto de dados chamado demos.

  4. Clique no ícone "+" (Criar nova consulta) e execute a consulta a seguir:

SELECT -- Create a timestamp from the date components. timestamp(concat(year,"-",mo,"-",da)) as timestamp, -- Replace numerical null values with actual nulls AVG(IF (temp=9999.9, null, temp)) AS temperature, AVG(IF (visib=999.9, null, visib)) AS visibility, AVG(IF (wdsp="999.9", null, CAST(wdsp AS Float64))) AS wind_speed, AVG(IF (gust=999.9, null, gust)) AS wind_gust, AVG(IF (prcp=99.99, null, prcp)) AS precipitation, AVG(IF (sndp=999.9, null, sndp)) AS snow_depth FROM `bigquery-public-data.noaa_gsod.gsod20*` WHERE CAST(YEAR AS INT64) > 2008 AND (stn="725030" OR -- La Guardia stn="744860") -- JFK GROUP BY timestamp
  1. Na seção "Editor de consultas", clique em Mais > Configurações de consulta.

  2. Na caixa de diálogo "Configurações de consulta", configure os campos abaixo. Não altere os outros campos.

Destination: selecione Definir uma tabela de destino para os resultados da consulta.

Dataset: digite demos e selecione o conjunto de dados.

Table Id: digite nyc_weather.

Results size: marque Permitir resultados extensos (sem limite de tamanho).

  1. Clique em SALVAR.

  2. Clique em EXECUTAR.

Os resultados são salvos no conjunto de dados que você criou (demos).

  1. Volte até Mais > Configurações de consulta. Em Destination field, selecione Salvar resultados da consulta em uma tabela temporária. Isso remove o conjunto de dados "demos" como um destino para futuras consultas.

  2. Clique em SALVAR para concluir a consulta.

Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.

Salve a nova tabela de dados meteorológicos

Tarefa 4. Encontre a correlação entre o clima e as reclamações

Compare o número de reclamações e a temperatura usando a função CORR.

  1. Volte até o EDITOR de consultas e execute a consulta a seguir:
SELECT descriptor, sum(complaint_count) as total_complaint_count, count(temperature) as data_count, ROUND(corr(temperature, avg_count),3) AS corr_count, ROUND(corr(temperature, avg_pct_count),3) AS corr_pct From ( SELECT avg(pct_count) as avg_pct_count, avg(day_count) as avg_count, sum(day_count) as complaint_count, descriptor, temperature FROM ( SELECT DATE(timestamp) AS date, temperature FROM demos.nyc_weather) a JOIN ( SELECT x.date, descriptor, day_count, day_count / all_calls_count as pct_count FROM (SELECT DATE(created_date) AS date, concat(complaint_type, ": ", descriptor) as descriptor, COUNT(*) AS day_count FROM `bigquery-public-data.new_york.311_service_requests` GROUP BY date, descriptor)x JOIN ( SELECT DATE(timestamp) AS date, COUNT(*) AS all_calls_count FROM `demos.nyc_weather` GROUP BY date )y ON x.date=y.date )b ON a.date = b.date GROUP BY descriptor, temperature ) GROUP BY descriptor HAVING total_complaint_count > 5000 AND ABS(corr_pct) > 0.5 AND data_count > 5 ORDER BY ABS(corr_pct) DESC

Os resultados indicam que as reclamações referentes a sistemas de aquecimento estão negativamente correlacionadas com a temperatura, ou seja, há mais chamadas relacionadas a essa questão em dias frios. Já as chamadas sobre árvores mortas estão positivamente correlacionadas com a temperatura, ou seja, há mais chamadas em dias quentes.

A seguir, compare o número de reclamações e a velocidade do vento usando a função "CORR".

  1. Clique no ícone "+" (Criar nova consulta) e execute a consulta a seguir:
SELECT descriptor, sum(complaint_count) as total_complaint_count, count(wind_speed) as data_count, ROUND(corr(wind_speed, avg_count),3) AS corr_count, ROUND(corr(wind_speed, avg_pct_count),3) AS corr_pct From ( SELECT avg(pct_count) as avg_pct_count, avg(day_count) as avg_count, sum(day_count) as complaint_count, descriptor, wind_speed FROM ( SELECT DATE(timestamp) AS date, wind_speed FROM demos.nyc_weather) a JOIN ( SELECT x.date, descriptor, day_count, day_count / all_calls_count as pct_count FROM (SELECT DATE(created_date) AS date, concat(complaint_type, ": ", descriptor) as descriptor, COUNT(*) AS day_count FROM `bigquery-public-data.new_york.311_service_requests` GROUP BY date, descriptor)x JOIN ( SELECT DATE(timestamp) AS date, COUNT(*) AS all_calls_count FROM `demos.nyc_weather` GROUP BY date )y ON x.date=y.date )b ON a.date = b.date GROUP BY descriptor, wind_speed ) GROUP BY descriptor HAVING total_complaint_count > 5000 AND ABS(corr_pct) > 0.5 AND data_count > 5 ORDER BY ABS(corr_pct) DESC
  1. Observe que as colunas "Corr" são negativas para reclamações relacionadas a barulho. Você formulou uma hipótese que explica por que essas reclamações diminuem em dias de vento? Os coeficientes são estatisticamente suficientes?

O BigQuery pode fornecer insights sobre problemas diferentes de vários ângulos.

Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.

Encontre a correlação entre o clima e as reclamações

Resumo

Neste laboratório, você fez consultas ad hoc em dois conjuntos de dados. Você consultou os dados sem configurar clusters, criar índices etc. Além disso, combinou os dois conjuntos de dados e teve alguns insights interessantes. Tudo isso sem sair do navegador.

Parabéns!

Você aprendeu a executar algumas consultas muito interessantes no BigQuery.

Termine a Quest

Este laboratório autoguiado faz parte da Quest Scientific Data Processing. Uma Quest é uma série de laboratórios relacionados que formam um programa de aprendizado. Ao concluir essa Quest, você recebe o selo acima como reconhecimento pela sua conquista. É possível publicar os selos e incluir um link para eles no seu currículo on-line ou nas mídias sociais. Caso você já tenha realizado este laboratório, inscreva-se nesta Quest para ganhar os créditos de conclusão imediatamente. Confira outras Quests disponíveis.

Comece o próximo laboratório

Faça o laboratório Processamento distribuído de imagens no Cloud Dataproc para continuar a Quest ou confira estas sugestões:

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 27 de junho de 2023

Laboratório testado em 27 de junho de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.