arrow_back

Dataprep:Qwik Start

加入 登录
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep:Qwik Start

Lab 1 小时 universal_currency_alt 1 积分 show_chart 入门级
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

本研究室是我們與合作夥伴 Trifacta 攜手開發而成。如果您在帳戶個人資料中選擇接收產品最新消息、公告和優惠資訊,您的個人資訊可能會提供給本研究室的贊助者 Trifacta。

GSP105

Google Cloud 自修研究室標誌

總覽

Cloud Dataprep by Trifacta 是一項智慧型資料服務,您可以透過當中的視覺化介面來探索、清理及準備資料,以用於數據分析。Cloud Dataprep 採用無伺服器架構,能處理任何規模的資料。您不必部署或管理任何基礎架構,輕鬆點選即可準備資料,不會編寫程式碼也沒問題。

在本研究室中,您會使用 Dataprep 控管資料集,匯入資料集、修正不相符的資料、轉換及彙整資料。如果是第一次使用這項服務,完成研究室活動後,您將掌握這項服務的運作方式。

設定和需求

點選「Start Lab」按鈕前的須知事項

請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。

您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。

如要完成這個研究室活動,請先確認:

  • 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意:請使用無痕模式或私密瀏覽視窗執行此研究室。這可以防止個人帳戶和學生帳戶之間的衝突,避免個人帳戶產生額外費用。
  • 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
注意:如果您擁有個人 Google Cloud 帳戶或專案,請勿用於本研究室,以免產生額外費用。

如何開始研究室及登入 Google Cloud 控制台

  1. 按一下「Start Lab」(開始研究室) 按鈕。如果研究室會產生費用,畫面中會出現選擇付款方式的彈出式視窗。左側的「Lab Details」(研究室詳細資料) 面板會顯示下列項目:

    • 「Open Google Console」(開啟 Google 控制台) 按鈕
    • 剩餘時間
    • 必須在這個研究室中使用的暫時憑證
    • 完成這個研究室所需的其他資訊 (如有)
  2. 按一下「Open Google Console」(開啟 Google 控制台)。接著,研究室會啟動相關資源並開啟另一個分頁,當中會顯示「Sign in」(登入) 頁面。

    提示:您可以在不同的視窗中並排開啟分頁。

    注意事項:如果頁面中顯示了「Choose an account」(選擇帳戶) 對話方塊,請按一下「Use Another Account」(使用其他帳戶)
  3. 如有必要,請複製「Lab Details」(研究室詳細資料) 面板中的使用者名稱,然後貼到「Sign in」(登入) 對話方塊。按一下「Next」(下一步)

  4. 複製「Lab Details」(研究室詳細資料) 面板中的密碼,然後貼到「Welcome」(歡迎使用) 對話方塊。按一下「Next」(下一步)

    重要注意事項:請務必使用左側面板中的憑證,而非 Google Cloud 技能重點加強的憑證。 注意事項:如果使用自己的 Google Cloud 帳戶來進行這個研究室,可能會產生額外費用。
  5. 按過後續的所有頁面:

    • 接受條款及細則。
    • 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
    • 請勿申請免費試用。

Cloud 控制台稍後會在這個分頁中開啟。

注意事項:按一下畫面左上方的導覽選單,即可在選單中查看 Google Cloud 產品與服務的清單。「導覽選單」圖示

工作 1:在專案中建立 Cloud Storage 值區

  1. 在 Cloud 控制台中,請依序選取「導覽選單」圖示 (「導覽選單」圖示) >「Cloud Storage」>「值區」

  2. 點選「建立值區」

  3. 在「建立值區」對話方塊中,為值區指定不重複的名稱,其餘設定則保留預設值。

注意: 如要進一步瞭解值區命名方式,請參閱值區命名指南
  1. 在「選取如何控制物件的存取權」部分,取消勾選「強制禁止公開存取這個值區」

  2. 點選「建立」

您已建立值區,請記下值區名稱供後續步驟使用。

測試已完成的工作

請點選「Check my progress」,確認工作已完成。如果已成功建立 Cloud Storage 值區,您就會看見評估分數。

建立 Cloud Storage 值區

工作 2:初始化 Cloud Dataprep

  1. 依序點選「導覽選單」>「Dataprep」
  2. 勾選方塊表示您接受《Google Dataprep 服務條款》,接著點選「接受」
  3. 勾選方塊授權與 Trifacta 分享您的帳戶資訊,接著點選「同意並繼續」
  4. 點選「允許」,同意讓 Trifacta 存取專案資料。
  5. 點選學員使用者名稱,登入 Cloud Dataprep by Trifacta。您的使用者名稱是研究室左側面板中的使用者名稱
  6. 點選「允許」,同意讓 Cloud Dataprep 存取您的 Google Cloud 研究室帳戶。
  7. 勾選方塊表示您接受《Trifacta 服務條款》,接著點選「接受」
  8. 點選「First time setup」畫面中的「繼續」,建立預設的儲存空間位置。

Dataprep 隨即會開啟。

測試已完成的工作

請點選「Check my progress」,確認工作已完成。如果已成功將 Cloud Dataprep 初始化並建立預設的儲存空間位置,您就會看見評估分數。

初始化 Cloud Dataprep

工作 3:建立流程

Cloud Dataprep 使用 flow 工作區來存取和控管資料集。

  1. 依序點選「Flows」圖示與「Create」按鈕,接著選取「Blank Flow」

「Flows」圖示、「Create」按鈕、「Blank Flow」選項

  1. 點選「Untitled Flow」,為流程命名並提供說明。由於本研究式使用 2016 美國聯邦選舉委員會提供的 2016 年資料,您可以將流程命名為「FEC-2016」,並輸入「United States Federal Elections Commission 2016」做為說明。
  2. 點選「OK」

FEC-2016 流程頁面隨即會開啟。

工作 4:匯入資料集

在本節中,您將匯入資料並新增至 FEC-2016 流程。

  1. 點選「Add Datasets」並選取「Import Datasets」連結。

  2. 在左側選單窗格中選取「Cloud Storage」,從 Cloud Storage 匯入資料集,接著點選鉛筆圖示來編輯檔案路徑。

Cloud Storage 頁面

  1. 在「Choose a file or folder」文字方塊中輸入 gs://spls/gsp105,接著點選「Go」

您可能需要拉寬瀏覽器視窗,才能看到「Go」和「Cancel」按鈕。

  1. 點選「us-fec/」

  2. 點選 cn-2016.txt 旁邊的「+」圖示,建立右側窗格中顯示的資料集。點選右側窗格中的資料集標題,重新命名為「Candidate Master 2016」。

  3. 以同樣的方式新增 itcont-2016-orig.txt 資料集,並重新命名為「Campaign Contributions 2016」。

  4. 這兩個資料集都會列在右側窗格中,接著點選「Import & Add to Flow」

兩個資料集列在右側窗格中

您會看見兩個資料集已列為一個流程。

工作 5:準備候選人檔案

  1. 根據預設,系統會選取「Candidate Master 2016」資料集。點選右側窗格中的「Edit Recipe」

Candidate Master 2016 資料集頁面

「Candidate Master 2016」轉換頁面隨即會以格狀檢視畫面開啟。

Candidate Master 2016 轉換頁面的格狀檢視畫面

透過轉換頁面,您可以建構轉換方案,並在對樣本套用方案後查看結果。如果對結果感到滿意,請對資料集執行工作。

  1. 每個資料欄標題都有指明資料類型的名稱與值,點選資料欄圖示即可查看詳情:

column6

  1. 此外,點選資料欄名稱時,畫面右側會顯示「Details」面板

  2. 點選「Details」面板右上角的「X」即可關閉面板

在接下來的步驟中,您會以格狀檢視模式探索資料,並將轉換步驟套用至方案。

  1. column5 提供 1990 至 2064 年的資料。拉寬 column5 (就像在試算表中操作一樣) 來顯示各年份的資料。選取最高的特徵分塊,這個分塊代表 2016 年。

column5

這項操作可選取值並建立步驟。

  1. 在右側的「Suggestions」面板中找出「Keep rows」專區,點選「Add」將這個步驟加入方案。

 「Suggestions」面板

右側的「Recipe」面板現在包含下列步驟:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. 在 column6 (州) 中,將滑鼠游標懸停在標頭中不相符的部分 (以紅色醒目顯示) 並點選,以選取不相符的資料列。

column6

往下捲動至底部 (以紅色醒目顯示) 並找出不相符的值,您會發現大部分記錄在 column7 中包含值「P」,在 column6 中則包含「US」。不相符的原因是 column6 標示為「State」(州) 資料欄 (以旗標圖示表示),但卻含有「US」等不是州名的值。

  1. 如要修正不相符的問題,請點選「Suggestions」面板上方的「X」來取消轉換,接著按一下 column6 中的旗標圖示,變更為「String」(字串) 資料欄。

column6

不相符的資料已修正,資料欄標記現在為綠色。

  1. 僅篩選總統候選人,也就是 column7 包含「P」這個值的記錄。在 column7 直方圖中,將滑鼠游標懸停在兩個特徵分塊上,查看哪個是「H」,哪個是「P」。點選「P」特徵分塊。

column7

  1. 在右側「Suggestions」面板中,點選「Add」將步驟加入方案。

「Keep rows」方塊

工作 6:整理獻金檔案並彙整至候選人檔案

在「Join」頁面中,您可以根據兩個資料集共有的資訊,彙整目前的資料集與另一個資料集或方案。

彙整獻金檔案和候選人檔案前,請先清理獻金檔案。

  1. 點選格狀檢視頁面上方的「FEC-2016」(資料集選取器)。

FEC-2016 顯示於格狀檢視頁面上方

  1. 點選來選取顯示為灰色的「Campaign Contributions 2016」

  2. 依序點選右側窗格中的「Add」>「Recipe」,接著按一下「Edit Recipe」

  3. 依序點選畫面右上方的「recipe」圖示和「Add New Step」

「recipe」圖示和「Add New Step」按紐

移除資料集中額外的分隔符號。

  1. 在搜尋框中插入下列 Wrangle 語言指令:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

「轉換製作工具」會剖析 Wrangle 指令並填入「Find」和「Replace With」轉換欄位。

轉換製作工具

  1. 點選「Add」,將轉換作業加入方案。

  2. 將另一個步驟加入方案。點選「New Step」,在搜尋框中輸入「Join」。

搜尋轉換框

  1. 點選「Join datasets」來開啟「Joins」頁面。

  2. 點選「Candidate Master 2016」來彙整至「Campaign Contributions 2016」,接著按一下右下角的「Accept」

Candidate Master 2016 資料列

  1. 將滑鼠游標懸停在畫面右側的「Join keys」專區,點選鉛筆 (「Edit」圖示)。

「Join conditions」方塊

Dataprep 會推測出共同鍵。畫面上會顯示 Dataprep 建議可做為彙整鍵的共同值。

  1. 在「Add Key」面板中,點選「Suggested join keys」專區裡的「column2 = column11」

「Add Key」面板

  1. 點選「Save and Continue」

column 2 和 11 隨即會開啟供您檢視。

  1. 點選「Next」,勾選「Column」標籤左邊的方塊,將兩個資料集的所有欄位加入已彙整的資料集。

「Column」標籤清單

  1. 依序點選「Review」和「Add to Recipe」,返回格狀檢視畫面。

工作 7:資料摘要

匯總、平均及計算 column 16 中的獻金金額,並分別按 column 2、24、8 的 ID、姓名及黨派為候選人進行分組,就能產生實用的摘要資訊。

  1. 在右側的「Recipe」面板上方,點選「New Step」,並在「Transformation」搜尋框中輸入下列公式,即可預覽匯總資料。
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

系統會顯示已彙整和匯總的資料初始樣本,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。

「Campaign Contributions - 2」頁面

  1. 點選「Add」,開啟美國主要總統候選人及其 2016 年選舉獻金指標的摘要資料表。

工作 8:重新命名資料欄

您可以重新命名資料欄,以更輕鬆的方式解讀資料。

  1. 點選「New Step」並輸入下列指令,將重新命名及捨入步驟逐一加入方案
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. 接著點選「Add」

  2. 加入最後一個新步驟,捨入平均獻金金額:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. 接著點選「Add」

結果應如下所示:

結果資料表,其中包含 Candidate_Id、Candidate_Name、Part_Affiliation, 及 Total_Contribution_Sum 資料欄

恭喜!

您已使用 Dataprep 新增資料集並建立方案,將資料轉換為具參考價值的結果。

後續步驟/瞭解詳情

本研究室是一系列稱為 Qwik Start 的研究室之一,這些研究室旨在讓您稍微瞭解 Google Cloud 提供的眾多功能。在研究室目錄中搜尋「Qwik Start」,即可找到要進行的下一個研究室!

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期:2023 年 9 月 15 日

研究室上次測試日期:2023 年 9 月 15 日

Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。