dc.description.abstract |
Η Μηχανική Μάθηση (Machine Learning, ML) αποτελεί έναν από τους πιο
συναρπαστικούς και δυναμικούς τομείς στην επιστήμη των υπολογιστών και
της τεχνητής νοημοσύνης, επηρεάζοντας ποικίλους τομείς εφαρμογών όπως η
υγειονομική περίθαλψη, το ηλεκτρονικό εμπόριο, η χρηματοοικονομία και η
αυτόνομη οδήγηση. Η ικανότητα των αλγορίθμων μηχανικής μάθησης να
αναλύουν μεγάλα και πολύπλοκα δεδομένα και να εξάγουν χρήσιμα μοτίβα ή
προβλέψεις έχει οδηγήσει σε σημαντικές εξελίξεις και καινοτομίες. Ειδικότερα,
τα δεδομένα ροής (streaming data) αποτελούν μια ιδιαίτερα απαιτητική
κατηγορία δεδομένων, καθώς τα δεδομένα αυτά παράγονται συνεχώς και σε
πραγματικό χρόνο, απαιτώντας την άμεση επεξεργασία και ανάλυσή τους.
Το Apache Spark, ένα από τα πιο δημοφιλή πλαίσια κατανεμημένης
επεξεργασίας δεδομένων, παρέχει ισχυρές δυνατότητες για την επεξεργασία
μεγάλων όγκων δεδομένων σε πραγματικό χρόνο, καθιστώντας το ιδανικό
εργαλείο για την ανάπτυξη και εφαρμογή αλγορίθμων μηχανικής μάθησης σε
δεδομένα ροής. Η πλατφόρμα αυτή συνδυάζει ταχύτητα, ευχρηστία και
ευελιξία, επιτρέποντας την ανάπτυξη και την εκτέλεση μοντέλων μηχανικής
μάθησης σε περιβάλλοντα μεγάλης κλίμακας.
Σκοπός αυτής της πτυχιακής εργασίας είναι η μελέτη και υλοποίηση
αλγορίθμων μηχανικής μάθησης σε δεδομένα ροής χρησιμοποιώντας το
Apache Spark. Θα εξετάσουμε τη διαδικασία συλλογής, επεξεργασίας και
ανάλυσης δεδομένων ροής, καθώς και την εφαρμογή αλγορίθμων μηχανικής
μάθησης
ABSTRACT
Machine Learning (ML) is one of the most exciting and dynamic fields in
computer science and artificial intelligence, impacting various application areas
such as healthcare, e-commerce, finance, and autonomous driving. The ability
of machine learning algorithms to analyze large and complex datasets and
extract useful patterns or predictions has led to significant advancements and
innovations. In particular, streaming data represents a highly demanding
category of data, as it is continuously generated in real time, requiring
immediate processing and analysis.
Apache Spark, one of the most popular distributed data processing
frameworks, provides powerful capabilities for processing large volumes of
data in real time, making it an ideal tool for developing and deploying machine
learning algorithms on streaming data. This platform combines speed, ease of
use, and flexibility, enabling the development and execution of machine
learning models in large-scale environments.
The purpose of this thesis is to study and implement machine learning
algorithms on streaming data using Apache Spark. We will examine the process
of collecting, processing, and analyzing streaming data, as well as the
application of machine learning algorithms |
el |