eCloudtureeCloudture
  • 雲端培訓
    • 雲端培訓課程
  • 人才培育
    • 2023 eCloudture 雲端種子計畫
  • 雲端資源
    • 部落格
    • 考試中心
  • eCloudture
    • 關於eCloudture
    • 學員心得分享
    • 聯絡我們
  • English
    • 雲端培訓
      • 雲端培訓課程
    • 人才培育
      • 2023 eCloudture 雲端種子計畫
    • 雲端資源
      • 部落格
      • 考試中心
    • eCloudture
      • 關於eCloudture
      • 學員心得分享
      • 聯絡我們
    • English
    • 目錄
    • 人工智慧/機器學習
    • SageMaker Ground Truth 建立高度精確資料集

    SageMaker Ground Truth 建立高度精確資料集

    • Posted by Shelly Yu
    • 課程類別 人工智慧/機器學習, 全部文章, 大數據
    • Date 20/03/2019
    • Comments 0 comment

    前言

    現今機器學習多以 監督式學習 (Supervised learning) 為主流,監督式學習是利用大量的數據使機器學習或建立一個模式,並以此模式對新的資料進行分類或預測。 就像人們看到了一隻兔子,一開始當沒有任何人告訴我們他是兔子時,我們可能會不了解他是什麼。但當有人給我們看了一千次兔子,並告訴我們他是兔子。下一次我們在看到時,便知道他是兔子。

    而銀行常面臨的課題是信用卡交易資料,在大量的交易資料中可能包含正常的交易或是欺詐行為,透過機器學習即時預測可以避免欺詐行為所造成的損失。因此我們了解影響監督式學習準確性其一的關鍵是 訓練資料集,確保訓練資料集的正確性十分重要。

    在許多公司中,對於特殊訓練集需要花費許多時間進行標籤,像是醫學影像的識別。為上千張圖像或文本加標籤需耗費許多時間與人力成本。

    為了解決人力成本過高與人手不足等問題,Amazon 推出了 Amazon SageMaker Groud Truth 加速建構高準確度的資料集,並減少添加標籤所造成的人力成本,最高可將成本下降70%,而這些成本的節省是透過使用機器學習自動標籤資料來達成。

    情境

    透過這個 Lab,您將使用 Amazon SageMaker Groud Truth 快速為資料集添加標籤,對貓與狗的圖片進行分類與添加標籤,而此 Lab 將使用公共勞動力搭配自動標籤技術進行,並把分類結果儲存在 S3 Bucket 中。

    步驟

    Step 1. 建立 S3 Bucket 儲存輸入資料

    在 S3 建立 Bucket 用來儲存要進行分類的圖片。

    • 在 Service 選單選擇 S3,點擊 Create Bucket 建立儲存要進行資料標籤化的 Bucket。

    • 在 Bucket Name 欄位,輸入獨一無二的名稱。

    • 在 Region,選擇 US East (N. Virginia),點選 Create。

    • 選擇剛剛建立的 S3 Bucket,點選 Upload 後將此連結中 labeling images 資料夾中的圖片上傳以作為資料標籤化的資料集。

    • 上傳後的 Bucket 內容如下。

    Step 2. 建立 S3 Bucket 儲存進行標籤後資料

    當 SageMaker Ground Truth 結束對資料進行標籤化,會輸出 manifest 的檔案到 S3 Bucket,此檔案會包含被標籤化的資訊。

    • 在 Service 選單點選 S3,選擇 Create Bucket 建立儲存要進行資料標籤化的輸入資料。

    • 在 Bucket Name 欄位,輸入獨一無二的名稱。

    • 在 Region,選擇 US East (N. Virginia),點選 Create。

    Step 3. 建立資料標籤化的工作

    • 在 Service 選單, 選擇 SageMaker 後點選左側面板的 Labeling jobs 準備建立工作。

    • 點選 Create labeling job 新增工作以標籤資料。

    • 在 Job overview 表單中, 請完成以下設定:

      • Job name : classify-cat-and-dog ० Input dataset location :

        Bucket 必須建立於 us-east-1 。

      • 選擇 Create manifest file 建立 manifest 檔案儲存所有需要進行標籤的資料位址。

        1. Input dataset location : 輸入儲存輸入資料的 Bucket 名稱 s3://<your input data bucket name> 已設定儲存位址。

        2. Data type : 選擇 Images 作為資料型態, 然後點選 Create。

        • 在 Create manifest file 視窗的底部, 將看見成功創建 manifest 檔案的訊息。 之後點選 Use this manifest 使用此檔案作為輸入資料。

      • Output dataset location : 輸入儲存輸出資料的 Bucket 名稱 s3://<your output data bucket name> 已設定輸出資料位址。

        Bucket 必須建立於 us-east-1 。

      • IAM Role : 當使用 SageMaker Ground Truth 進行資料標籤化,需要建立一個 Role 以存取 S3 bucket。

        • 選擇 Create a new role 建立新使用者。

        • 在 Create an IAM role 視窗,選擇 Any S3 bucket 讓使用者可以存取所有 S3 Bucket,之後點擊 Create 建立使用者。

      • 展開 Additional configuration :

        • Datasets object selection : 選擇 Full dataset 使用全部資料集。

          其他選擇 : 如果你只想用部分的資料作為輸入資料,選擇 Random sample 並設定 sample size 進行隨機取樣。 或是使用 SQL 語法選取特定資料及作為輸入資料。

        • Encryption key : 使用預設設定 S3 的金鑰加密輸出資料。

      • 所有設定如下。

    • 在 Task type 部分 : 選擇 Image classification 來分類貓與狗的圖片,點選 Next 進行下一步。

    • 在 Workers 部分 :

      • Worker types : 選擇 Pubilc 使用 Amazon Mechanical Turk 所提供的人力進行資料標籤化。

      • Price per task : 選擇 0.012 的價格支付給標籤人員。

        價格請依照每位作業人員在標籤所需的時間選擇。

      • 選取 The dataset does not contain adult content 確認資料未包含不雅內容。

      • 選取 I understand that my dataset will be viewed by the Amazon Mechanical Turk public workforce and I acknowledge that my dataset does not contain personally identifiable information (PII) 確認資料未包含隱私內容並了解 Amazon Mechanical Turk 公用人力進行查看。

      • 展開 Additional configuration :

        • 選擇 Enable 允許 Automated data labeling 使用 AWS 所提供的機器學習模型進行自動標籤資料,它會自動標籤資料以節省成本。

        • 輸入 3 在 Number of workers per dataset object 欄位已指定資料集需要幾位人力進行交叉比對,藉由增加人力可以提高準確率。

    • 在 Image classification labeling tool 部分設定預覽頁面 :

      • 刪除預覽頁面左側文字。

      • 輸入以下說明文字描述此工作需求。

        Please Classify cat and dog, thank you.
        
      • 在 Select an option 部分,新增 cat 和 dog 作為標籤分類。

    • 點選 Submit 提交此任務給公用人力。

    • 返回 SageMaker 控制台,你將會看資料標籤化的工作正在處理中。

    • 請等待工作狀態轉變成 Complete 及代表資料標籤化的工作已完成。

      Here may take few time to complete.

    • 選擇命名為 classify-cat-and-dog 的工作並滾動至 Output 部分查看分類後的圖片,您將可看到每張圖片被標籤到的分類。

    補充

    Amazon SageMaker Groud Truth 提供了三種人力供企業及使用者運用,分別是 – Amazon Mechanical Turk 的公共勞動力 :提供高度可用性且24/7不間斷的服務,對於小型與資料量龐大之企業提供快速擴展的人力。 – 組織內部的私人勞動力:使用公司內部團隊對資料標籤化,並以 Amazon Cognito、社群帳號(Google,Facebook)、OpenID Connect提供商進行身份驗證,因此可解決資料需要保密或具有隱私等問題。 – 第三方供應商所提供的專業勞動力:供應商擁有豐富的經驗,藉由供應商所列出的服務內容,選擇符合你的成本與期望作業的時間。

    結論

    藉由完成上述教學您將了解到如何利用 Amazon SageMaker Groud Truth 進行資料標籤化,並且選擇最符合您需求的方式建立標籤化流程。Amazon SageMaker Groud Truth 不只在人力的提供上有多種選擇,同時也讓企業可以選擇圖像分類、文本分類、物件檢測等方式建構資料集。

    由於網路的便利性,社群媒體所產出的資料量越來越龐大,當企業要進行分析前,必須將資料進行前處理。大量的數據提高了資料標籤化的人力需求與成本,企業都在追求如何加快資料標籤化的速度同時減少成本,透過雲端平台所提供的服務解決此問題,而 Amazon SageMaker Groud Truth 正是其中一個可以解決此問題的服務。

    • Share:
    Shelly Yu

    Previous post

    【每周快報 】0304-0308 AWS 服務更新
    20/03/2019

    Next post

    【每周快報 】0311-0315 AWS 服務更新
    21/03/2019

    You may also like

    新聞封面-12
    【焦點新聞|Microsoft Build 2022】
    2 6 月, 2022
    新聞封面-11
    【焦點新聞】0428-0511 AWS 服務更新
    13 5 月, 2022
    新聞封面429-10-10-10
    【焦點新聞】0421-0427 AWS 服務更新
    29 4 月, 2022

    給我們的意見 取消回覆

    發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

    搜尋文章

    分類

    • AWS re:Invent 特輯
    • Microsoft Ignite 特輯
    • 人工智慧/機器學習
    • 全部文章
    • 基本概念
    • 大數據
    • 容器服務
    • 新聞
    • 無伺服器
    • 物聯網
    • 維運
    • 資訊安全

    最新文章

    【焦點新聞|Microsoft Build 2022】
    026 月2022
    【焦點新聞】0512-0525 AWS 服務更新
    275 月2022
    【焦點新聞】0428-0511 AWS 服務更新
    135 月2022
    【焦點新聞】0421-0427 AWS 服務更新
    294 月2022
    Phone : +886 2 22801777
    Mail : info@ecloudture.com

    雲端培訓

    • 雲端學習地圖
    • 雲端培訓課程
    • 專業證照培訓

    人才招募

    • 2020 eCloudture AIoT 雲端夏令營

    雲端資源

    • 部落格
    • 考試中心

    eCloudture

    • 關於eCloudture
    • 學員心得分享
    • 聯絡我們

    • Privacy
    • Terms
    • Sitemap