החלטתי לעשות מסורת שבועית, בה אני מפרסם פוסט על מערכת מסוימת בתחום ה Big Data/Stream בשפה פשוטה ומובנת לכולם.
הנושא הראשון… ?????? ???????.
Airflow התחיל בכך שמספר מתכנתים בחברת Airbnb, היו מעוניינים לבנות מערכת אחת שבה יהיה ניתן לתחזק את התהלכים והתזמונים…. וכך הומצא ה Airflow.
למה כדאי להשתמש ב Airflow?
- מערכת אחת לתהליכים ותזמונים.
- יכולת קריאת קוד פייתון
- שימוש נרחב בטריגרים
- ממשק UI קל ונוח
- XCOM
- ניתן לבצע תהליכים בתור ובמקביל.
- קהילה גדולה שהולכת ומעצימה.
מושגים חשובים ב- Airflow:
- Operators- כל אופרטור הוא Task, שמבצע פעולה כלשהי,
דוגמה לאופרטורים: BashOperator,PythonOperator , Google Cloud Operators …. - DAG – (כל התהליך עצמו (אוסף של Tasks/Operators
Scheduler- מתזמן ומנטר את כל המשימות ואת כל ה- DAG ומפעיל את המשימות שתלותיהם נפגשו לפי התורים שקבענו מראש.
Apache Airflow הוא open source כך שכולם יכולים להשתמש בו, וכמובן לפתח אופרטורים חדשים שחברות אחרות יוכלו גם להתשמש בו.
אז אם בא לכם להתנסות במוצר טוב המאחד את כל התהליך, מתזמן ומנטר אותו- Airflow הוא הפתרון.