【每周快報】0804-0812 AWS 服務更新
前言
這周 AWS 在機器學習領域做了不少服務更新,像是 Amazon Forecast 現在將 66 個國家的特殊節日也納入考量,以產生更精準的預測。另外,Amazon Transcribe 也有了些更新,現在使用者可以自行訓練模型,讓語音辨識系統更精準的將話語轉換成文字,提升了不同領域的語音辨識程度。
此外,為了讓使用者有更佳的服務體驗,AWS 改善了許多服務的速度,例如全託管服務 AWS Glue 2.0 版縮短了 10 倍的啟動時間,而 Amazon Forecast 加入了新的優化卷積神經網路訓練預測模型後,速度及準確度皆大幅提升了!今天我們還會跟各位分享 Amazon S3 Access Point、Amazon EKS、Amazon CodeGuru…等服務的更新及優化。
焦點新聞
AWS Glue 2.0 版縮短了 10 倍的啟動時間,計費週期降至最低一分鐘
AWS Glue 是全託管的擷取、轉換和載入 (ETL) 服務,可讓使用者輕鬆準備資料,以及載入資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 ETL 任務。
AWS Glue 2.0 正式 GA ,使用 Spark ETL 將會縮短 10 倍的啟動時間,這也意味著 Glue 總執行時間會更短,對使用 micro-batching 和對延遲敏感的使用者更加有利。
有了 Glue 2.0 ,工作啟動延遲較可預測,且開銷更少。此外,AWS Glue 2.0 版 Spark 作業將以 1 秒為單位計費,最低計費時間降低了10倍
從 10 分鐘到最小 1 分鐘。
因此,使用者現在可以更高效率的執行 micro-batch 快速載入資料湖、資料倉儲、資料庫內的資源並啟用實時分析,或是執行較快速的交互性工作。
透過更快的工作啟動時間,使用者可以更可靠地運行 SLA 驅動的 data pipelines,達到互動式資料探索。Glue 2.0 還提供了一項新功能,可從 wheel 文件或資料庫中安裝 Python 模組。
在 AWS Console 上實際的例子,使用者可以建立一個新的 Glue Spark ETL jobs 或是把現有 Spark 作業移轉到 Glue 2.0:
這個範例建立一個簡單的工作,將 .csv 檔案從一個 S3 複製到另一個 S3,比較 Glue 1.0 與 Glue 2.0 的工作時間:
Glue 1.0
Glue 2.0
可以很明顯地發現 Glue 2.0 的工作時間比 Glue 1.0 快了 10 倍。
參考來源至:AWS Glue version 2.0 featuring 10x faster job start times and 1-minute minimum billing duration
Amazon Forecast 加入了新的優化卷積神經網路 (CNNs) 訓練預測模型,速度及準確度皆大幅提升
Amazon Forecast 是一項全託管的服務,使用機器學習來產生需求預測,常用於庫存規劃、人力資源規劃、能源需求預測和雲端基礎設施用量預測等場景。
傳統的統計模型可用於預測具有常規需求模式的產品,例如夏天的防曬乳和冬天的毛衣,但是統計模型無法針對更複雜的情況提供準確的預測,例如:頻繁的價格變化、國家與地區需求之間的差異、銷售速度不同的產品、以及新產品的加入等等例子。而透過深度學習模型可以提供更高的準確性,Forecast 會自動檢查使用者的資料,並在若干個統計和深度學習算法中選擇最佳的演算法,以訓練更準確的資料預測模型。
此次更新後,Amazon Forecast 現在可以使用卷積神經網絡 (CNN) 來預測模型,與目前的支持演算法 (SVM) 相比,Forecast 將準確性提高到 30%,模型訓練速度提升高達 2 倍。這種演算法可以更準確地預測需求的各項指標,例如預購資訊,產品頁面訪問量,價格變化和促銷高峰,以建立更準確的預測。
CNN 演算法在 Amazon.com 的需求預測系統中擔任著至關重要的角色,並使 Amazon.com 每天可以預測超過 4 億種不同產品的需求。有關 Amazon.com 使用 CNN 模型建構需求預測技術過程的更多訊息,請觀看 re:MARS 2019 短片。
參考來源至:Amazon Forecast now uses Convolutional Neural Networks (CNNs) to train forecasting models up to 2X faster with up to 30% higher accuracy、CNN-QR Algorithm、Region Table
其他服務更新
Amazon S3 Access Point 支援 Copy API
Amazon S3 Access Point 現在開始支援使用者使用 Copy API,使用者可以在同一個 Region 中的不同 Access Point 來回複製數據,並且他簡化了大規模的資料查詢過程,例如 log 分析或是數據處理。
每一個 Amazon S3 Access Point 都是一個獨立的 Hostname,你可以在 S3 Management Console 創建這些 Access Point,並對他發送任何請求,以達到精準的權限控制。
目前 Access Point 可以在 AWS 全區域中使用,包含由 Sinnet 及 NWCD 所經營的中國地區和 AWS GovCloud 的美國地區皆在服務範圍中。
Amazon EKS 上的 Fargate 支援 Savings Plans
以往 Fargate 僅能在 ECS Task 上的選用 Saving Plans,這是依使用量承諾一年或三年的契約,價格上與 On-Demands 相比較為便宜,Saving Plans 可跨 Amazon Elastic Compute Cloud(EC2)、AWS Lambda、AWS Elastic Container Service(ECS)上的 Fargate 使用,此次更新後,支援 EKS 上的 Fargate,增加了計費方式的選擇,提供使用者更大的彈性。
參考來源至:AWS Fargate for Amazon EKS now included in Compute Savings Plans
Amazon FSx for Luster 新增 HDD 儲存選項
Amazon FSx for Lustre 是一個高性能共享存儲的服務,此次更新後新增 HDD 儲存選項,比起其他選項更具有成本效益,使用者現在擁有 SSD 和兩個新的 HDD 存儲選項之間進行選擇,每個選項都提供不同等級的性能。
如果今天要選用吞吐量密集型的硬碟,但不需要達到延遲較低的需求,可選用 HDD ,提供了兩種選項:
可依據自身需求,選擇適合的選項。
參考來源至:New – High-Performance HDD Storage for Amazon FSx for Lustre File Systems
、Amazon FSx for Lustre announces high-performance HDD-based shared storage for compute workloads
Amazon CodeGuru 支援 Repository Code Review
Amazon CodeGuru 是 AWS 推出自動執行程式碼審查並提供應用程式效能建議的服務。藉由找到耗費資源的程式碼,改善應用程式效能及成本。CodeGuru 用 Amazon 程式庫中的數十萬個專案訓練機器學習模型,而程式庫包含成千上萬 Amazon 開發人員在數十年間對程式碼進行審查與應用程式分析的應用程式分析的經驗。
CodeGuru 是 Reviewer 與 Profiler 組成,Reviewer 主要是在審查程式碼階段給予建議,標記可能有問題的法程式碼。而 Profiler 則會透過代理程式在程式的運行,尋找會耗費大量資源的程式碼並給予建議。
此次更新後,支援 Repository Code Review,使用者更甚至可以在 Repository 中選擇要對哪一個 Pull Request、Branch 或 Package 做分析。現在開始,可以在 Code Reviews
Console 上看到 Repository analysis
的頁籤。
可以直接選取現有支援的儲存庫,像是 AWS CodeCommit、Bitbucket、GitHub 及
GitHub Enterprise Server 等等,在使用上更為便利。
參考來源至:CodeGuru Reviewer now has Full Repository Analysis Support
AWS ACM 支援 PrivateLink
為了提供私人組織使用的 CA,透過 ACM 的 Private CA 可以創建與專用證書頒發機構(CA)結構一樣的 CA,包括 Root CA 和 SubCA,而無需投入及維護 CA 的維護成本。 Private CA 可以適合用在以下情況下有用的 X.509 證書:
-
創建透過 TLS 加密的 tunnel
-
驗證 API 端點、IoT 設備
-
加密的 Code Signing
-
使用 線上憑證狀態協定(OCSP) 以獲取 憑證吊銷列表(CRL)
此次更新後 ACM 針對 Private CA (Certificate Authority) API 提供了 PrivateLink 的 Endpoint(VPC Endpoint),讓使用者可以在 VPC 中呼叫此 API 時,確保此次傳輸的資料都透過 AWS 骨幹網路傳輸,而不是走網際網路。
參考來源至:AWS Certificate Manager Private Certificate Authority now supports Private Link endpoints
Amazon API Gateway HTTP APIs 支援萬用字元自定義 Domain names
創建 Amazon API Gateway 萬用字元自定義 Domain names 為使用者提供靈活的 API 調用 URL,萬用字元自定義 Domain names 在 Record 裡看起來就像這樣 * .hostname.com
在前面加上 *
。
以往僅支援 Edge、Region 和 WebSocket API,所以如果將每個 Subdomain 路由到一支 HTTP API,僅能為每個 Subdomain 新增一個自定義 Domain name,此次更新後,新增 HTTP API 對萬用字元自定義 Domain names 支援,即可利用萬用字元自定義 Domain names 將多個 URL 路由到同一個 API,在操作上更有彈性。
參考來源至:Amazon API Gateway HTTP APIs now supports wildcard custom domain names
AWS Step Functions 新增支援 SageMaker Processing 功能
SageMaker Processing 於 re:Invent 2019 上所推出的新功能,可讓使用者在完全託管的基礎架構上評估模型,SageMaker 會使用使用者的腳本,並從 S3 複製數據,然後自動開啟容器,這些基礎架構全由 SageMaker 管理,讓使用者可以輕鬆快速的驗證、評估模型。
在此次更新之前,若要將 Step Function 與 SageMaker 的工作流程整合,必須透過 Lambda 來處理(調用 SageMaker Processing API),還需要自己將邏輯定義好,好讓 Step Function 可順利運作(包括 Wait、Choice 和 Task),變成 Lambda 需要一直不斷的去檢查 SageMaker Processing 的狀態是否完成,如果沒有完成就得繼續等,等完再檢查一次,造成整個 Step Functions 非常複雜,且維護成本非常高,還會多出許多 Lambda 的成本,如下圖。
此次更新後,可以在 Step Functions 中新增 Sagemaker Processing 的工作流程,使用者不需要再透過 Lambda 來確認 SageMaker Processing 的狀態。
參考來源至:AWS Step Functions adds support for Amazon SageMaker Processing
圖片來源至:Building machine learning workflows with Amazon SageMaker Processing jobs and AWS Step Functions
Amazon Forecast 針對 66 國家(地區)新增特殊節日
Amazon Forecast 是針對時間序列進行預測的機器學習服務,使用者僅需要準備好時間序列的歷史資料,並可以透過 Forecast 來進行預測,常見的庫存量預測,勞動力預測,以及能源需求預測等應用場景。
但當我們在進行庫存量的相關預測時,商品的銷售量往往會因為許多外部因素而有所變動,例如:在美國的萬聖節假期中,糖果和巧克力的需求可能會增加,所以為了防止缺貨,零售商可能會希望在假期前將貨架上的此類產品都先預備好,以應付龐大的需求量。
此次更新後,Amazon Forecast 針對 66 個國家(地區)新增了特殊節日,作為 InputDataConfig
參數,像是新年、萬聖節等特殊節日,使用者可以將此類假期添加到數據中,以生成更準確的預測。
參考來源至:Amazon Forecast adds holiday calendars for 66 countries, to improve forecast accuracy
Amazon Transcribe 推出自定義語言模型(CLM)
Amazon Transcribe 是一個自動語音識別(ASR)服務,可以將語音轉換成文字。
先前針對醫療產業推出了 Transcribe Medical,提升了醫療相關術語的辨識程度,然而在其他應用場景中 Transcirbe 的辨識度仍然有些許不足,導致很多使用者無法實際投入應用程式當中。
此次更新後,可以透過自行訓練 CLM 來針對使用者的情境進行優化學習,若要訓練 CLM,必須將特定情境中的檔案上傳到 S3,並給予 Transcribe 訪問該數據的權限,便可以針對該檔案中數據進行訓練。
Tag:Amazon API Gateway HTTP APIs, Amazon CodeGuru, Amazon EKS, Amazon Forecast, Amazon FSx for Luster, Amazon S3 Access Point, Amazon Transcribe, AWS, AWS ACM, AWS Glue 2.0, AWS Step Functions, CLM, CNNs, Copy API, Domain names, Fargate, HDD, PrivateLink, Repository Code Review, SageMaker Processing, Savings Plans