תתארו לכם רגע, שאתם עובדים בחברת e-commerce גדולה, שאוספת נתוני לקוחות כבר שנים.
יש לך TB של נתונים המאוחסנים ב HDFS. המידע כולל מידע על נתונים דמוגרפיים של לקוחות, היסטוריית גלישה והיסטוריית לקוחות. החברה שלכם מעוניינת להציע מוצרים ללקוח בזמן אמת.
כאן נכנס לתמונה Apache Impala עם ביצוע שאילתות מהירות ומבוזרות, וכן היכולת לטפל בכמויות גדולות של מידע.
אימפלה הוא מנוע שאילתות SQL מבוזר בעל ביצועים גבוהים. הוא פותח על ידי Cloudera ותוכנן לספק ניתוח מבוסס SQL אינטראקטיבי עם זמן אחזור נמוך על מערכי נתונים גדולים המאוחסנים ב-Hadoop Distributed File System (HDFS) וב-Apache HBase.
Impala תומכת גם במגוון רחב של מקורות נתונים, כולל פורמטים של Avro, Parquet ו-ORC, כמו גם טבלאות Hive ו-HBase. הוא תומך גם בתכונות מתקדמות כגון שאילתות משנה וחיבורים בין טבלאות ופונקציות. זה הופך אותו לכלי רב-תכליתי עבור מדעני נתונים, מנתחי נתונים ואנשי מקצוע בתחום הבינה העסקית.
בהמשך לסיפור, אתם יכולים להשתמש באימפלה כדי לפלח לקוחות לקבוצות שונות על סמך נתונים דמוגרפיים, היסטוריית גלישה והיסטוריית רכישות, ולאחר מכן להשתמש במידע זה כדי ליצור המלצות מוצר מותאמות אישית לכל קבוצה.
Impala שונה מ- Apache Hive בכך שהיא משתמשת במנוע ביצוע שאילתות מבוזר, במקום להסתמך על MapReduce. זה מאפשר ביצועי שאילתות מהירים יותר, כמו גם את היכולת לטפל בשאילתות במקביל יותר. Impala תומכת גם בתכונות מתקדמות יותר, כמו תמיכה בשאילתות משנה ואופטימיזציה מתוחכמת יותר של שאילתות.