Cloud Data Fusion? และ CDAP? สูตรใหม่ในการทำ Big Data Platform

facebooktwittergoogle_plusredditpinterestlinkedinmail

ในการ สร้าง Big  Data Platform ให้กับองค์กรขนาดใหญ่ สิ่งสำคัญมากสิ่งหนึ่ง ที่ต้องทำในกระบวนการสร้าง Big Data Platform คืองาน ETL/ELT  (ส่วนหนึ่งของการ ทำ Data Integration) เพื่อนำ Data จาก หลายๆ Data Sources เข้าไปใน Data Platform ของเรา

มีเครื่่องมือชั้นนำมากมายในวงการนี้เพื่อช่วยลดเวลาในการทำงาน ETL ไม่ว่าจะเป็น Open source หรือ Commercial ที่ต้องเสียเงิน Informatica , Talend , SAS ,Horton work ,Cloudera, Apache Airflow, หรือ Apache Nifi

ซึ่งเหล่านี้อาศัยกำลังเงินหรือแรงการ Implement ที่ซับซ้อนมากมายหลายขั้นตอนและเป็นงานยากลำบากในกรณีทีเราสร้าง Big Data Platform ด้วย Hybrid Big data Infrastructure คือมีทั้ง On-Cloud และ On-Premise หรือ Multi-Data Platforms ในองค์กร

Google Cloud Platform (GCP) ได้ออกบริการใหม่ ชื่อ “Cloud Data Fusion” ซึ่งพื้นฐานพัฒนามาจาก Project Opensource  ชื่อโครงการ ว่า CDAP? (Cask Data Application Platform) (ตอนนี้ V6.0.0 แล้ว)  คือ ความพยายามที่จะมี Platform   เดียว ช่วยในงาน data integration  ในระบบนิเวศน์ของ Hadoop  ไม่ว่าจะเป็นงาน แบบ Real-time หรือ batch
ก่อนหน้านี้ก็มีบริการ Data Flow , Data Prep และ Data Studio เพื่อให้ทำงานสะดวกขึ้น ยังคงมีส่วนต้อง Code เยอะและไม่มี UI ในการทำ Data Pipeline

เป็นไปได้ง่ายขึ้นมากกว่าเดิม และ  ลดความซับซ้อน เป็นมาตรฐานแบบเปิด (นอกจากนี้ CDAP ยังมี Feature เรื่อง Metadata Management  )

“Cloud Data Fusion” (ตอนนี้เป็น Beta) ก็พัฒนาโดย Google อ้างอิงจาก มาตรฐาน และ API Spec ของ CDAP  หัวใจหลักคือ “Fully Managed, Code Free data Integration any scale” ประมาณว่าทำ Data Integration โดยไม่ต้องเขียนโค๊ด ใช้ในงานไม่ว่าจะ Big Data หรือ Small Data

และเป็นอย่าง Concept ที่ Google กล่าวอ้างใช้เวลาประมาณครึ่งชั่วโมงในการ Spin up
Cloud Data Fusion และได้หน้าตาสวยงามของ “Data Fusion Studio” พร้อมทำ Data Pipe Line , Wrangler, Analytic
คือแก้ปัญหาความซับซ้อนของการทำ Data  ฝั่ง Cloud โดดๆ หรือ จะเป็นแบบผสม Hybrid Cloud เรียกได้ว่า ทำงานไร้รอยต่อ
และหัวใจหลักและสำคัญในงานอีกอย่างของ Cloud Data Fusion  คือ Connector มาตรฐานมากมายและยังเพิ่มในส่วน บริการของ Google เอง เช่น Google Bigquery , Google Cloud Storage, Google Pubsub  connectors หรือ Cloud AIs    นอกจากนั้นสามารถ upload JDBC (Java Database Connectivity อับโหลดได้เอง ) ซึ่งจะ เป็น Driver ทำให้เราเชื่อมต่อ กับระบบ Databases ที่ไม่มีใน Connectors พื้นฐาน
1_4DXx9dEEf8TYVg0XOTEwfw

drd-cloud-next-19-data-fusionหมายเหตุ
ยังคงต้องรอการพัฒนาและ Feature เพิ่มเติมอีกมากถึงจะมาเทียบเท่า เจ้าตลาด อย่าง Infomatica ,SAS, Talend หรือ IBM
แต่เนื่องจากบริการนี้เป็นบริการ ซึ้ง พัฒนาจาก  CDAP Opensource Project ทำให้เราสามารถใช้งานในองค์กรณ์ในรูปแบบประสปการณ์เดียวกันโดยไม่จำเป็นต้องใช้ Cloud Data Fusion ของ Google ความแพร่หลายและการ Support จาก Community น่าจะเยอะคงต้องดู ยาวไป
Cloud Data fusion
CDAP
ภาพ UI บางส่วน จาก CDAP สังเกตุจะมี มี Component หลักๆ เหมือนกันกับ Cloud Data Fusion แต่ก็บางส่วนก็ต่างกันไป
accelerators-details-pipeline (2)
accelerators-details-rules accelerators-details-wrangler (1) accelerators-details-analytics (1)

facebooktwittergoogle_plusredditpinterestlinkedinmail
The following two tabs change content below.

Be the first to comment

Leave a Reply

Your email address will not be published.


*