【每周快報 】0822-0828 AWS 服務更新
一、新服務
Amazon Forecast 現已正式上市
Amazon Forecast 是一項全託管服務,採用與 Amazon.com 相同的技術,使用機器學習結合時間序列資料與其他變數,以提供高度準確的預測。
不需要任何機器學習經驗,用戶只需提供歷史資料,以及任何可能會影響預測的其他資料。例如:特定顏色襯衫的需求會隨著季節和商店地點而有不同。類似的關係,其實複雜得較難單獨判斷,但利用機器學習便可幫助識別。
用戶提供資料之後,Amazon Forecast 會自動檢驗資料、找出有意義的資訊,並製作預測模型,以做出相較於單獨查看時間序列的資料,高出最多 50% 的準確預測。
-
Datasets and Dataset Groups:用戶可建立自己的數據庫,並從 Amazon S3 匯入訓練的 .CSV 檔案。
-
Predictors:創建完成後,Amazon Forecast 運用演算法產生預測的模型,也就是產生 predictors。可選擇內建的演算法,或是使用 AutoML 選項,由系統自動指定最適合的演算法。
-
Forecasts:生成 predictors (預測模型) 後,運用該模型,並帶入參數,即可產生預測的結果。
預測結果如圖:(由 eCloudture 團隊實作)
參考來源至:Amazon Forecast Now Generally Available
圖片來源至:Amazon Forecast console
二、服務的新功能
AWS DataSync 現在支援將資料傳入及傳出 SMB 類型的共享檔案
AWS DataSync 是一項資料傳輸的服務。透過自動處理多項可能導致移轉速度緩慢或加重 IT 操作負擔的多項任務,讓用戶可在本地端的儲存系統和 Amazon S3 或 Amazon Elastic File System (Amazon EFS) 之間自動移動資料。
此次更新之後,AWS DataSync 支援伺服器訊息區塊 (Server Message Block, SMB) 協定,提供自動化和加速執行 SMB 檔案共享與 Amazon Simple Storage Service (Amazon S3) 儲存貯體或 Amazon Elastic File System (Amazon EFS) 檔案系統之間的資料複製,用於分析、存檔或備份等使用案例,即可減少本地端的儲存基礎設施。
用戶可使用 AWS DataSync 主控台或 AWS 命令列界面 (CLI),將 SMB 檔案共享設定為資料傳輸的來源或目標。
-
用戶需要設定 DataSync 用於驗證 SMB 檔案共享的登入資料。例如:使用來自用戶 Active Directory (AD) 的網域使用者。
-
當執行 DataSync 任務時,該服務會掃描變更的來源,並將資料安全地複製到目標。
-
DataSync 針對 SMB 檔案的共享,將會維護檔案名稱、檔案內容,以及包含目錄結構和時間戳記在內的中繼資料 (metadata)。
-
用戶可全面掌控 DataSync 傳輸的過程。例如:若是目的地中現有的檔案,並不包含在此次傳輸的來源中時,是否應刪除舊有的檔案?此外,可使用篩選條件模式選取傳輸中應包含或應排除哪些檔案。
參考來源至:AWS DataSync can now transfer data to and from SMB file shares
AWS IoT Core 新增 Republish 動作的服務品質 (Quality of Service, QoS) 設定
AWS IoT Core 可讓連線裝置與雲端應用程式及其他裝置互動,並支援數十億個裝置和數兆則訊息,安全地處理這些訊息後觸發其他 AWS 服務端點(Endpoint)。
而 republish 動作可將觸發角色 (role) 的訊息重新發佈至另一個 MQTT 主題。
此次更新之後,AWS IoT Core 支援在 MQTT 訊息設定 QoS 等級 0 和 1,QoS 0 代表交付訊息 0 或多次,而 QoS 1 代表交付訊息一或多次。因此用戶可選擇以 QoS 1 發布重要的訊息,如果訂閱者也以 QoS 1 訂閱,則可讓訂閱者確認收到這些訊息。
參考來源至:AWS IoT Core Adds the Ability to Configure Quality of Service (QoS) for Republish Action
Amazon SQS 現在新增 Tag-on-Create 的功能
Amazon SQS 是全託管的訊息佇列服務,可讓用戶分離和擴展微型服務、分散式系統及無伺服器應用程式,以免除與管理和操作訊息相關的複雜性及開銷。
為了識別 Amazon SQS 佇列的用途以及追蹤有關簡訊的成本,用戶可以使用資料標籤來分類佇列。例如:用標籤來識別特定部門、專案或應用程式所使用的所有 Amazon SQS 佇列。
此次更新之後,用戶可使用單一 Amazon SQS API 呼叫、AWS 開發套件函數或 AWS CLI 命令同時建立佇列和指定其標籤,便無須在建立佇列後再標記指令碼。
參考來源至:Amazon SQS Now Supports Tag-on-Create
圖片來源至:AWS Tagging Strategies
Amazon SageMaker 推出新的訓練方案:Spot 訓練,可節省高達 90% 的機器學習訓練成本
Amazon SageMaker 是一項能夠快速建立、訓練及部署機器學習模型的全託管服務,其中涵蓋整個機器學習工作流程:標記和準備資料、選擇演算法、訓練模型、針對開發加以調整及最佳化、進行預測,以及採取行動。
Spot 執行個體利用 AWS 雲端中的未使用運算容量,與隨需價格相比,Spot 執行個體最高可享受 90% 的折扣。
Spot Training方案推出之後,可使用 Amazon EC2 Spot 執行個體訓練機器學習模型,藉此省下相較於隨需執行個體高達 90% 的費用。
使用 Spot Training 時,執行個體隨時會被回收,不像 On-demand 的訓練方案可以等待到整體工作執行完成才收回。當執行個體將要回收時,用戶會提前 2 分鐘收到終止通知,但不用擔心資料的遺失。Amazon SageMaker 將會自動處理資料在終止時的轉換過程:中斷培訓作業、重新獲得執行個體的容量,並重新啟動或恢復訓練作業。用戶還可以使用 MaxWaitTimeInSeconds 參數來控制訓練作業的總持續時間(實際訓練時間加上等待時間)。
除此之外,為避免因為多次中斷再重新啟動而造成難以掌控進度的情形,用戶可設定檢查點,以定期在訓練過程中保存模型的狀態,便可以從明確定義的時間點來恢復訓練工作,繼續從最近的模型訓練。
實例:利用此 sample notebook 來訓練模型,並使用 Spot Training 方案。
- 啟用 Spot Training 方案
- 使用 MaxWaitTimeInSeconds 參數來控制時間
首先,用戶需要先創建訓練的方案、選擇演算法,並選擇好執行個體的類型…等,完成必要的設定之後,用戶可在 Checkpoint configuration 的部分設定檢查點。
接著,最後可在 Managed spot training 的部分,開啟 Spot Training 方案,並設定 MaxWaitTimeInSeconds 參數。
參考來源至:Amazon SageMaker launches Managed Spot Training for saving up to 90% in machine learning training costs
圖片來源至:Managed Spot Training: Save Up to 90% On Your Amazon SageMaker Training Jobs
除了上述更新之外,Amazon SageMaker 現在可與 Amazon FSx for Lustre 和 Amazon EFS 做結合,可加速並簡化模型訓練
Amazon Elastic File System (Amazon EFS) 針對 Linux 式工作負載提供簡單、可擴展的彈性檔案儲存,提供數千個 Amazon EC2 執行個體進行大規模的並行共享存取。
Amazon FSx for Lustre 提供高效能檔案系統,並且針對以下快速處理工作負載進行優化:機器學習、高效能運算 (HPC)、影片處理、財務模組化和電子設計自動化 (EDA) 等。
在過去用戶,如果想使用 Amazon SageMaker 來訓練模型,只能透過Amazon S3 來存取數據資料,但現在可以透過 EFS 和 FSx 來作為存取空間,無需將數據集從 Amazon EFS 複製到 Amazon S3,可直接與Amazon SageMaker 互動,減省資料轉移時間,降低所需等待的時間。
AWS Systems Manager 參數存放區 (Parameter Store) 可使用智能分層 (intelligent-tiering) 來啟用自動參數層選擇 (automatic parameter tier selection) 的功能
AWS Systems Manager 是一項用以查看及控制 AWS 的基礎設施的服務。透過提供統一的使用者界面,用戶可一次查看多項 AWS 服務的運作狀態,並自動化操作 AWS 的資源。藉此簡化資源和應用程式管理、縮短偵測和解決操作問題所需的時間。
Parameter Store 提供安全的階層式儲存空間,進行組態資料管理和安全性管理。可以存放密碼、資料庫字串和授權碼之類的資料做為參數值,且資料可是純文字或加密資料。
Parameter Store 的標準參數層級可存儲多達 10,000 個參數,每個參數設為 4 KB;而在高級層允許用戶存儲多達 100,000 個參數,每個參數的值大小設為 8 KB,並允許用戶向參數添加策略。
透過智能分層,可根據創建或更新請求中請求的功能自動執行層選擇,而可實現以無中斷方式來使用進階參數層級功能。例如:啟用智能分層設置後,如果您的帳戶超過10,000個標準參數,則可以將後續的參數創建為高級參數,無需更改應用程序代碼。
三、功能的增強或改動
Amazon ElastiCache 宣布推出 Redis 叢集模式的線上垂直擴展並改善非 Redis 叢集模式擴展功能
Amazon ElastiCache 提供全託管的 Redis 和 Memcached 模式,無縫地雲端部署、執行和擴展常見的開放原始碼於相容記憶體內資料存放區,並可建立資料密集型應用程式或提高現有應用程式的效能。
用戶現在可以隨需擴展或縮減Redis 叢集中的碎片。透過變更節點類型,調整用戶的叢集大小,可持續保持在線上並在服務內送的請求。
垂直方式 (透過擴展或縮減) 和水平方式 (新增或移除碎片) 可調整 Redis 叢集大小。動態地擴展 Redis 叢集,不必在尖峰需求過度佈建,可適當調整叢集大小、提升效率並降低成本。
Amazon Transcribe 現在支援俄文和簡體中文的語音轉換文字功能
Amazon Transcribe 是一項自動語音辨識 (ASR) 服務,可讓用戶在應用程式中加入語音轉換文字功能。
此次更新之後,Amazon Transcribe 新支援俄文和簡體中文的語音轉錄,擴展了該服務服務的市場,可運用在聯絡中心、媒體和娛樂、教育等使用案例,觸及更廣泛的全球使用者。
參考來源至:Amazon Transcribe now supports speech-to-text in Russian and Chinese Mandarin–Mainland
Amazon FreeRTOS 現在支援 HTTPS 用戶端
Amazon FreeRTOS 是一種適用於微型控制器的開放原始碼作業系統,可讓小型、低功率的邊緣裝置易於進行程式設計、部署、保護、連接及管理。
此次更新之後,Amazon FreeRTOS 內含的程式庫除了可協助用戶使用 MQTT 簡訊將微型控制器裝置連接到雲端,還可使用 HTTP/HTTPS 協定將執行 Amazon FreeRTOS 的微型控制器 IoT 裝置連接到 AWS IoT,再將檔案下載到用戶的裝置。
使用 HTTPS 的情境有以下幾種:
- 將新功能、映像檔和安全補丁程序下載到家用電器。
- 將音樂檔案添加到程式庫中。
- 符合現有以 HTTPS 為基準的系統。
- 用於更高頻寬的下載動作。
用戶可將這些文件存儲在 Amazon S3 或任何其他託管服務上,並指定從特定 URL 下載文件。同時,可設定以分段的方式傳輸文件,並指定每個分段的大小。此外,建議用戶將 AWS 訪問金鑰存儲在 IoT 設備之外的地方,例如:用戶創建的 Sigv4 presigned URL,以提供安全性。
參考來源至:Amazon FreeRTOS Now Supports HTTPS Client
圖片來源至:Building microcontroller-based IoT applications using HTTPS client in Amazon FreeRTOS
Amazon EMR 5.26.0 實現高達 16 倍的 Spark 性能
使用 EMR 5.26.0,用戶可以從 EMR 5.24.0 和 5.25.0 中引入的所有新的 Spark 的性能優化功能。
-
Dynamic partition pruning:允許 Spark 運行時,可以推斷相關性的分區,可以讓 Spark 讀取更少的資料並減低需要處理的記錄數量。
-
DISTINCT before INTERSECT:在兩兩的計算主機交集之前,消除每個集合中的重複值,而減少主機之間搬移的過程,可以提升運算效能。
-
Flattening scalar subqueries:有助於在將多個不同條件用於特定表的行的情況下,可以防止表格被多個條件多次的讀取。
-
Optimized join reorder:使用過濾器執行較小的連接,可以減少較大的後續連接所需的處理。
-
Bloom filter join:過濾表 (filter table) 用包含相關性的行列,可減少 Spark 處理的資料量並提高查詢運行時性能。
參考資源至 : Achieve up to 16x better Spark performance with Amazon EMR release 5.26.0
Tag:Active Directory, AD, Amazon EC2 Spot, Amazon EFS, Amazon Elastic File System, Amazon ElastiCache, Amazon EMR 5.26.0, Amazon Forecast, Amazon FreeRTOS, Amazon FSx for Lustre, Amazon FSx for Windows File Server, Amazon S3, Amazon SageMaker, Amazon SQS, Amazon SQS API, Amazon Transcribe, ASR, automatic parameter tier selection, AWS CLI, AWS DataSync, AWS IoT Core, Datasets and Dataset Groups, HTTPS, intelligent-tiering, MaxWaitTimeInSeconds, Memcached, MQTT, Parameter Store, Predictors, QoS, Quality of Service, Redis, Republish, Server Message Block, Sigv4 presigned URL, SMB, Spark, Spot, Spot Training, Tag-on-Create
You may also like

【焦點新聞|Microsoft Build 2022】

【焦點新聞】0512-0525 AWS 服務更新
