检查点
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep:Qwik Start
本研究室是我們與合作夥伴 Trifacta 攜手開發而成。如果您在帳戶個人資料中選擇接收產品最新消息、公告和優惠資訊,您的個人資訊可能會提供給本研究室的贊助者 Trifacta。
GSP105
總覽
Cloud Dataprep by Trifacta 是一項智慧型資料服務,您可以透過當中的視覺化介面來探索、清理及準備資料,以用於數據分析。Cloud Dataprep 採用無伺服器架構,能處理任何規模的資料。您不必部署或管理任何基礎架構,輕鬆點選即可準備資料,不會編寫程式碼也沒問題。
在本研究室中,您會使用 Dataprep 控管資料集,匯入資料集、修正不相符的資料、轉換及彙整資料。如果是第一次使用這項服務,完成研究室活動後,您將掌握這項服務的運作方式。
設定和需求
點選「Start Lab」按鈕前的須知事項
請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。
您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。
如要完成這個研究室活動,請先確認:
- 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
- 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
如何開始研究室及登入 Google Cloud 控制台
-
按一下「Start Lab」(開始研究室) 按鈕。如果研究室會產生費用,畫面中會出現選擇付款方式的彈出式視窗。左側的「Lab Details」(研究室詳細資料) 面板會顯示下列項目:
- 「Open Google Console」(開啟 Google 控制台) 按鈕
- 剩餘時間
- 必須在這個研究室中使用的暫時憑證
- 完成這個研究室所需的其他資訊 (如有)
-
按一下「Open Google Console」(開啟 Google 控制台)。接著,研究室會啟動相關資源並開啟另一個分頁,當中會顯示「Sign in」(登入) 頁面。
提示:您可以在不同的視窗中並排開啟分頁。
注意事項:如果頁面中顯示了「Choose an account」(選擇帳戶) 對話方塊,請按一下「Use Another Account」(使用其他帳戶)。 -
如有必要,請複製「Lab Details」(研究室詳細資料) 面板中的使用者名稱,然後貼到「Sign in」(登入) 對話方塊。按一下「Next」(下一步)。
-
複製「Lab Details」(研究室詳細資料) 面板中的密碼,然後貼到「Welcome」(歡迎使用) 對話方塊。按一下「Next」(下一步)。
重要注意事項:請務必使用左側面板中的憑證,而非 Google Cloud 技能重點加強的憑證。 注意事項:如果使用自己的 Google Cloud 帳戶來進行這個研究室,可能會產生額外費用。 -
按過後續的所有頁面:
- 接受條款及細則。
- 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
- 請勿申請免費試用。
Cloud 控制台稍後會在這個分頁中開啟。
工作 1:在專案中建立 Cloud Storage 值區
-
在 Cloud 控制台中,請依序選取「導覽選單」圖示 () >「Cloud Storage」>「值區」。
-
點選「建立值區」。
-
在「建立值區」對話方塊中,為值區指定不重複的名稱,其餘設定則保留預設值。
-
在「選取如何控制物件的存取權
」部分,取消勾選「強制禁止公開存取這個值區」。
-
點選「建立」。
您已建立值區,請記下值區名稱供後續步驟使用。
測試已完成的工作
請點選「Check my progress」,確認工作已完成。如果已成功建立 Cloud Storage 值區,您就會看見評估分數。
工作 2:初始化 Cloud Dataprep
- 依序點選「導覽選單」>「Dataprep」。
- 勾選方塊表示您接受《Google Dataprep 服務條款》,接著點選「接受」。
- 勾選方塊授權與 Trifacta 分享您的帳戶資訊,接著點選「同意並繼續」。
- 點選「允許」,同意讓 Trifacta 存取專案資料。
- 點選學員使用者名稱,登入 Cloud Dataprep by Trifacta。您的使用者名稱是研究室左側面板中的使用者名稱。
- 點選「允許」,同意讓 Cloud Dataprep 存取您的 Google Cloud 研究室帳戶。
- 勾選方塊表示您接受《Trifacta 服務條款》,接著點選「接受」。
- 點選「First time setup」畫面中的「繼續」,建立預設的儲存空間位置。
Dataprep 隨即會開啟。
測試已完成的工作
請點選「Check my progress」,確認工作已完成。如果已成功將 Cloud Dataprep 初始化並建立預設的儲存空間位置,您就會看見評估分數。
工作 3:建立流程
Cloud Dataprep 使用 flow
工作區來存取和控管資料集。
- 依序點選「Flows」圖示與「Create」按鈕,接著選取「Blank Flow」:
- 點選「Untitled Flow」,為流程命名並提供說明。由於本研究式使用 2016 美國聯邦選舉委員會提供的 2016 年資料,您可以將流程命名為「FEC-2016」,並輸入「United States Federal Elections Commission 2016」做為說明。
- 點選「OK」。
FEC-2016 流程頁面隨即會開啟。
工作 4:匯入資料集
在本節中,您將匯入資料並新增至 FEC-2016 流程。
-
點選「Add Datasets」並選取「Import Datasets」連結。
-
在左側選單窗格中選取「Cloud Storage」,從 Cloud Storage 匯入資料集,接著點選鉛筆圖示來編輯檔案路徑。
- 在「Choose a file or folder」文字方塊中輸入
gs://spls/gsp105
,接著點選「Go」。
您可能需要拉寬瀏覽器視窗,才能看到「Go」和「Cancel」按鈕。
-
點選「us-fec/」。
-
點選
cn-2016.txt
旁邊的「+」圖示,建立右側窗格中顯示的資料集。點選右側窗格中的資料集標題,重新命名為「Candidate Master 2016」。 -
以同樣的方式新增
itcont-2016-orig.txt
資料集,並重新命名為「Campaign Contributions 2016」。 -
這兩個資料集都會列在右側窗格中,接著點選「Import & Add to Flow」。
您會看見兩個資料集已列為一個流程。
工作 5:準備候選人檔案
- 根據預設,系統會選取「Candidate Master 2016」資料集。點選右側窗格中的「Edit Recipe」。
「Candidate Master 2016」轉換頁面隨即會以格狀檢視畫面開啟。
透過轉換頁面,您可以建構轉換方案,並在對樣本套用方案後查看結果。如果對結果感到滿意,請對資料集執行工作。
- 每個資料欄標題都有指明資料類型的名稱與值,點選資料欄圖示即可查看詳情:
-
此外,點選資料欄名稱時,畫面右側會顯示「Details」面板。
-
點選「Details」面板右上角的「X」即可關閉面板。
在接下來的步驟中,您會以格狀檢視模式探索資料,並將轉換步驟套用至方案。
- column5 提供 1990 至 2064 年的資料。拉寬 column5 (就像在試算表中操作一樣) 來顯示各年份的資料。選取最高的特徵分塊,這個分塊代表 2016 年。
這項操作可選取值並建立步驟。
- 在右側的「Suggestions」面板中找出「Keep rows」專區,點選「Add」將這個步驟加入方案。
右側的「Recipe」面板現在包含下列步驟:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- 在 column6 (州) 中,將滑鼠游標懸停在標頭中不相符的部分 (以紅色醒目顯示) 並點選,以選取不相符的資料列。
往下捲動至底部 (以紅色醒目顯示) 並找出不相符的值,您會發現大部分記錄在 column7 中包含值「P」,在 column6 中則包含「US」。不相符的原因是 column6 標示為「State」(州) 資料欄 (以旗標圖示表示),但卻含有「US」等不是州名的值。
- 如要修正不相符的問題,請點選「Suggestions」面板上方的「X」來取消轉換,接著按一下 column6 中的旗標圖示,變更為「String」(字串) 資料欄。
不相符的資料已修正,資料欄標記現在為綠色。
- 僅篩選總統候選人,也就是 column7 包含「P」這個值的記錄。在 column7 直方圖中,將滑鼠游標懸停在兩個特徵分塊上,查看哪個是「H」,哪個是「P」。點選「P」特徵分塊。
- 在右側「Suggestions」面板中,點選「Add」將步驟加入方案。
工作 6:整理獻金檔案並彙整至候選人檔案
在「Join」頁面中,您可以根據兩個資料集共有的資訊,彙整目前的資料集與另一個資料集或方案。
彙整獻金檔案和候選人檔案前,請先清理獻金檔案。
- 點選格狀檢視頁面上方的「FEC-2016」(資料集選取器)。
-
點選來選取顯示為灰色的「Campaign Contributions 2016」。
-
依序點選右側窗格中的「Add」>「Recipe」,接著按一下「Edit Recipe」。
-
依序點選畫面右上方的「recipe」圖示和「Add New Step」。
移除資料集中額外的分隔符號。
- 在搜尋框中插入下列 Wrangle 語言指令:
「轉換製作工具」會剖析 Wrangle 指令並填入「Find」和「Replace With」轉換欄位。
-
點選「Add」,將轉換作業加入方案。
-
將另一個步驟加入方案。點選「New Step」,在搜尋框中輸入「Join」。
-
點選「Join datasets」來開啟「Joins」頁面。
-
點選「Candidate Master 2016」來彙整至「Campaign Contributions 2016」,接著按一下右下角的「Accept」。
- 將滑鼠游標懸停在畫面右側的「Join keys」專區,點選鉛筆 (「Edit」圖示)。
Dataprep 會推測出共同鍵。畫面上會顯示 Dataprep 建議可做為彙整鍵的共同值。
- 在「Add Key」面板中,點選「Suggested join keys」專區裡的「column2 = column11」。
- 點選「Save and Continue」。
column 2 和 11 隨即會開啟供您檢視。
- 點選「Next」,勾選「Column」標籤左邊的方塊,將兩個資料集的所有欄位加入已彙整的資料集。
- 依序點選「Review」和「Add to Recipe」,返回格狀檢視畫面。
工作 7:資料摘要
匯總、平均及計算 column 16 中的獻金金額,並分別按 column 2、24、8 的 ID、姓名及黨派為候選人進行分組,就能產生實用的摘要資訊。
- 在右側的「Recipe」面板上方,點選「New Step」,並在「Transformation」搜尋框中輸入下列公式,即可預覽匯總資料。
系統會顯示已彙整和匯總的資料初始樣本,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。
- 點選「Add」,開啟美國主要總統候選人及其 2016 年選舉獻金指標的摘要資料表。
工作 8:重新命名資料欄
您可以重新命名資料欄,以更輕鬆的方式解讀資料。
- 點選「New Step」並輸入下列指令,將重新命名及捨入步驟逐一加入方案:
-
接著點選「Add」。
-
加入最後一個新步驟,捨入平均獻金金額:
- 接著點選「Add」。
結果應如下所示:
恭喜!
您已使用 Dataprep 新增資料集並建立方案,將資料轉換為具參考價值的結果。
後續步驟/瞭解詳情
本研究室是一系列稱為 Qwik Start 的研究室之一,這些研究室旨在讓您稍微瞭解 Google Cloud 提供的眾多功能。在研究室目錄中搜尋「Qwik Start」,即可找到要進行的下一個研究室!
Google Cloud 教育訓練與認證
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2023 年 9 月 15 日
研究室上次測試日期:2023 年 9 月 15 日
Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。