Apache Tajo ทางเลือกใหม่ Big Data Warehouse

Apache Tajo Big Data Warehouse สัญชาติเกาหลี โครงการ Apache

facebooktwittergoogle_plusredditpinterestlinkedinmail

การ Access ข้อมูลของ Hadoop ในรูปแบบ SQL มีเครื่องมือหลายตัว มาไล่เรียงตัว Top ดู
1. Apache Hive
2. Impala
3. Presto
4. Shark
5. Apache Drill
6. Pivotal HAWQ
7. BigSQL (IBM)
8. Apache Pheonix (Hbase)

ตัวใหม่ล่าสุดนอกจาก KUDU มีตัวที่น่าจับตามองเป็นพิเศษคือ APACHE TAJO ภายใต้โครงการของ Apache Project เริ่มตั้งแต่ปี 2010 โดย Startup สัญชาติเกาหลีใต้ ก่อนจะย้ายมา Apache 2013 (Incubate)

Features สำคัญๆ คือ

  • SQL compliance
  • Fully distributed query processing against HDFS and other data sources
  • ETL feature set
  • User-defined functions
  • Compatibility with HiveQL and Hive MetaStore
  • Fault tolerance through a restart mechanism for failed tasks
  • Cost-based query optimization and an extensible query rewrite engine

แต่สิงที่ทำให้ Apache Tajo น่าสนใจก็คือ performance เมือเทียบกับ Apache Hive และ Impala
ทำการทดสอบโดย SK telecom บริษัทยักษ์ใหญ่ด้านโทรคมของเกาหลี
สภาวะการทดลอง
1. ข้อมูลขนาด 1.7 TB
2. Query Result ขนาด 8GB หรือน้อยกว่า
3. Software 3 ตัว คือ Hive,Impala และ Tajo

QUERY 1: HEAVY SCAN WITH 20 MATCHING FILTERS
tajo_q1 (1)

QUERY 2: 7 UNIONS WITH JOINS
tajo_q2 (1)

QUERY 3: SIMPLE JOINS
tajo_q3 (1)

QUERY 4: GROUP BY AND ORDER BY
tajo_q4 (1)

QUERY 5: 30 PATTERN MATCHING FILTERS WITH OR CONDITIONS USING GROUP BY, HAVING AND SORTING
tajo_q5 (1)

ผลการเทสที่ออกมาแสดงให้ เห็น ว่า Tajo มีดี แต่…
Query ต่างๆที่นำทดสอบยังไม่สามารถแสดงให้เห็น Performance ทั้งหมดได้เนื่องจากยังมี use cases อีกมากมาย
แต่ก็๋เป็นลางดีที่เราจะมีของ Free น่าใช้อีกตัว

นึกถึงประเทศสยามเรา ไม่เคยมีโครงการ Apacheใหญ่ๆ เลย หรือว่าเราเกิดมาเป็นผู้ใช้อย่างเดียว ไม่ใช่ผู้สร้าง

download (1)

ที่มา http://blogs.gartner.com/nick-heudecker/apache-tajo-enters-the-sql-on-hadoop-space/

facebooktwittergoogle_plusredditpinterestlinkedinmail
The following two tabs change content below.

Be the first to comment

Leave a Reply

Your email address will not be published.


*