Data engineering on GCP - Coursera

Data Engineering on Google Cloud Platform

Τον Δεκέμβριο που μας πέρασε, παρακολούθησα το DevFest OnAir και πήρα έναν δωρεάν μήνα από τα specializations του Google Cloud στην Coursera. Είχα ήδη τελειώσει το «ML με TensorFlow στο GCP», «Advanced ML με TensorFlow στο GCP», «IoT», έτσι αποφάσισα να ξεκινήσω το «Data Engineering on Google Cloud Platform».

Υπάρχουν 5 μαθήματα σε αυτή την εξειδίκευση και το επίπεδο είναι Μεσαίο. Αυτό σημαίνει ότι υπάρχουν ορισμένες προαπαιτήσεις που πρέπει να έχει αυτός που θέλει να το παρακολουθήσει. Τα κύρια σημεία, για μένα, είναι να έχει γνώση της Python, εμπειρία χρησιμοποιώντας SQL, εξοικείωση με ML και λίγο Java.

Αυτό το μάθημα εξειδίκευσης καλύπτει δομημένα, μη δομημένα και δεδομένα ροής (structured, unstructured and streaming data) και σε προετοιμάζει για τις εξετάσεις πιστοποίησης Google Certified Professional Data Engineering certification exam.

Το πρώτο μάθημα αφορά τα μεγάλα δεδομένα (Big Data) και τα βασικά στοιχεία του ML. Πώς να χρησιμοποιήσετε το CloudSQL και Cloud Dataproc για να είναι σε θέση να μεταφερθούν υπάρχοντοι φόρτοι εργασίας (workloads) MySQL, Hadoop/Spark/Hive/Pig στο GCP, πώς να χρησιμοποιηθούν BigQuery και Cloud Datalab για να πραγματοποιθεί διαδραστική ανάλυση, ποιες είναι οι διαφορές και πώς να επιλέξετε μεταξύ CloudSQL, BigTable και Datastore, πώς να εκπαιδεύσετε και να χρησιμοποιήσετε ένα NN με TensorFlow και τελικά να μπορείτε να επιλέξετε μεταξύ των διαφόρων προϊόντων επεξεργασίας δεδομένων στο GCP.

Το Leveraging Unstructured Data with Dataproc on GCP είναι ένας μεγάλος συνδυασμός από βίντεο-διαλέξεις και εργαστήρια, όπου έμαθα πώς να δημιουργώ και να υπολογίζω συμπλέγματα (clusters) για να διευθύνω το Hadoop, Spark jobs on GCP. Στα εργαστήρια, δούλεψα με το Dataproc (δημιουργία και διαχείριση συμπλεγμάτων).

Εάν έχετε ερωτήσεις σχετικά με BigQuery τότε αυτό είναι το κατάλληλο μάθημα για να βρείτε τις απαντήσεις σας. Ερωτήσεις όπως τι είναι BigQuery, πότε να το χρησιμοποιήσετε, πώς να το χρησιμοποιήσετε, πώς να κάνετε ερώτημα (query), δομή, δευτερεύοντα ερωτήματα, πίνακες…, όλα είναι εδώ. Και στο τέλος είναι η σύνδεση με το Dataflow. και η αυτόματη κλιμάκωση των αγωγών επεξεργασίας δεδομένων (pipelines).

Το τέταρτο μάθημα δεν ήταν τόσο ενδιαφέρον για μένα. Αυτό συμβαίνει επειδή έχω ήδη παρακολουθήσει τις δύο εξειδικεύσεις που ανέφερα παραπάνω. Αλλά όταν το ακούσεις για πρώτη φορά, είναι καταπληκτικό! Είναι το μόνο που χρειάζεσαι/πρέπει να ξέρεις όταν έχεις να κάνεις με ML. Από το ξεκίνημα σου με ML, στην οικοδόμηση (building) του ML μοντέλου σου με TensorFlow (φυσικά), στην κλιμάκωση (scaling) με το Cloud ML Engine και τέλος Feature Engineering. Με πολλά εργαστήρια και κουίζ.

Το τελικό μάθημα είναι για Building Resilient Stream Systems on GCP. Στα 4 προηγούμενα μαθήματα μπορείτε να επιλέξετε μεταξύ Python και Java. Αλλά σε αυτό το μάθημα, θα χρησιμοποιήσετε την Java. Το τελικό μάθημα με βοήθησε να κατανοήσω τις περιπτώσεις χρήσης για ανάλυση ροής σε πραγματικό χρόνο (real-time streaming analytics). Έπρεπε να χρησιμοποιήσω Pub/Sub για τη διαχείριση συμβάντων δεδομένων με ασύγχρονη ανταλλαγή μηνυμάτων, να ετοιμάσω τη ροή αγωγών (streaming pipelines), να “τρέξω” τους μετασχηματισμούς (run transformations), όπου ήταν απαραίτητο, και να εξοικειωθώ με το Παραγωγή (production)και Κατανάλωση (consumption), διαφορετικές πλευρές της διοχέτευσης συνεχούς ροής (streaming pipeline).

Συμπεράσματα

Είναι ακόμα μια καταπληκτική εξειδίκευση από το Google Cloud στην Coursera. Αν έχετε τις προαπαιτήσεις που αναφέρω παραπάνω ή αν σκοπεύετε να πάρετε τις εξετάσεις, τότε παρακολουθήστε το.

Καλή διασκέδαση!