Μπορούν να προβλεφθούν οι αγώνες ποδοσφαίρου με τη χρήση νευρωνικών δικτύων; Καταφατική απάντηση δίνει η διπλωματική εργασία του Δημήτρη Ιωάννου, φοιτητή του Πολυτεχνείου Θεσσαλονίκης, εισαγωγή στην οποία κάναμε μόλις χθες, δίνοντας τα εύσημα στα ελληνικά Πανεπιστήμια. Σήμερα θα δούμε πώς έφτασε στα συμπεράσματα, εξηγώντας όσο γίνεται πιο απλά τη μεθοδολογία.

Εξήγησα τι είναι τα νευρωνικά δίκτυα στο χθεσινό άρθρο. Στα δίκτυα αυτά μας απασχολούν αρχικά δύο ειδών δεδομένα: τα χαρακτηριστικά εισόδου κι εξόδου. Με άλλα λόγια, ποιες μεταβλητές (ή στατιστικά αν θέλετε εν προκειμένου για το αθλητικό στοίχημα) χρειαζόμαστε για την εκπαίδευση του δικτύου και ποια μεγέθη καλείται το δίκτυο να προβλέψει. Στην περίπτωση του ποδοσφαιρικού στοιχήματος, τα μεγέθη αυτά δεν είναι άλλο από το τελικό αποτέλεσμα ενός αγώνα: 1, Χ ή 2.

Βεβαίως τα νευρωνικά δίκτυα είναι δυνατόν να εφαρμοστούν και σε οποιοδήποτε άλλο στοίχημα, όπως π.χ. το over/under. Στην εργασία που εξετάζουμε όμως, στόχος του Δημήτρη ήταν η πρόβλεψη του τελικού αποτελέσματος.

Ποια στατιστικά δίνουν τις καλύτερες προβλέψεις στο ποδοσφαιρικό στοίχημα

Προσωπικά με ενδιέφερε πολύ η απάντηση σε αυτό το ερώτημα. Έχοντας φτιάξει στο παρελθόν μερικές δεκάδες Excelόφυλλα, προσπαθώντας να λύσω το μυστήριο του στοιχήματος, συχνά αναρωτιόμουν αν τελικά η βαθμολογία, οι νίκες/ήττες και τα τέρματα που έχει πετύχει κάθε ομάδα ήταν τα μόνα στατιστικά που θα με βοηθούσαν.

Αποδεικνύεται πως όχι.

Και η μαθηματική απόδειξη του Δημήτρη δεν επιτρέπει αμφιβολίες περί τούτου.

Ως χαρακτηριστικά εισόδου λοιπόν στα νευρωνικά δίκτυα, εξετάστηκαν αρκετά στατιστικά ποδοσφαίρου που συναντάμε σε ποικίλες ιστοσελίδες του ίντερνετ. Πόσες εντός νίκες είχε η γηπεδούχος, πόσες εκτός ήττες είχε η φιλοξενούμενη ομάδα, πόσα τέρματα εντός κι εκτός έχουν πετύχει οι δυο ομάδες κι άλλα. Όλα αυτά πριν φυσικά την πραγματοποίηση κάθε αγώνα.

Ο παρακάτω πίνακας δείχνει την αξιολόγηση των στατιστικών δεδομένων, όσον αφορά τη βέλτιστη πρόβλεψη των πιθανοτήτων καθενός των τριών σημείων (1,Χ,2). Με απλά λόγια, ποιο στατιστικό φανερώνει καλύτερα τη διαφορά δυναμικότητας των δύο ομάδων. Δε θα μας απασχολήσουν οι δύο διαφορετικοί τρόποι (chi-square και information gain), βάσει των οποίων έγινε η σύγκριση των στατιστικών. Εκείνο που μετρά και μας ενδιαφέρει ως παίκτες στοιχήματος, είναι το συμπέρασμα.

statistika-premier-league-aksiologisi-neuronika-diktya
Αξιολόγηση χαρακτηριστικών Premier League

Πρώτη λοιπόν, έρχεται η εκτίμηση των εταιριών στοιχημάτων (home/away), όπως αυτή αντικατοπτρίζεται από τις στοιχηματικές αποδόσεις, γεγονός που δεν μας εκπλήσσει. Όταν η νίκη μιας ομάδας προσφέρεται στο 2,00, είναι πολύ πιθανόν να κερδίσει κατά 50% περίπου.

Η συνέχεια όμως είναι άκρως ενδιαφέρουσα. Τα 10 καλύτερα στατιστικά για την πρόβλεψη ενός ποδοσφαιρικού αγώνα με τη χρήση νευρωνικών δικτύων σύμφωνα με τη διπλωματική εργασία είναι:

  1. DDGT: Πρόκειται για τη διαφορά των μέσων όρων διαφοράς συνολικών τερμάτων της γηπεδούχου και της φιλοξενούμενης. Σας μπέρδεψα; Αφαιρέστε τα γκολ που πέτυχε η γηπεδούχος (π.χ. 20) με αυτά που δέχτηκε (π.χ. 5) στους προηγούμενους αγώνες (π.χ. 10). Το αποτέλεσμα (15) διαιρέστε το με το αριθμό των συνολικών αγώνων (1,5). Κάντε το ίδιο για τη φιλοξενούμενη (π.χ. 1,1) και η διαφορά των δύο τιμών είναι το στατιστικό μέγεθος που βρίσκεται στην τρίτη θέση.
  2. DPTST: Η διαφορά βαθμών των δύο ομάδων στο βαθμολογικό πίνακα του πρωταθλήματος.
  3. DSOGT: Η διαφορά των τελικών επιθετικών προσπαθειών στο στόχο (shot on goal) μεταξύ γηπεδούχου και φιλοξενούμενης. Το μέγεθος αυτό είναι μάλιστα οριακά κοντά με το προηγούμενο, που σημαίνει ότι τα shots on goal είναι σχεδόν το ίδιο σημαντικά με το βαθμολογικό πίνακα!
  4. DGATT: Η διαφορά μέσων όρων τερμάτων που έχει δεχθεί η γηπεδούχος και των αντίστοιχων της φιλοξενούμενης στο σύνολο των αγώνων.
  5. PTSAT: Οι βαθμοί που έχει συγκεντρώσει η φιλοξενούμενη ομάδα σε όλους τους αγώνες της. Φαίνεται ότι είναι πολύ πιο σημαντικοί σε σχέση με τους βαθμούς της γηπεδούχου.
  6. DGFT: Διαφορά μεταξύ των μέσων όρων γκολ που έχει πετύχει η γηπεδούχος και εκείνων της φιλοξενούμενης σε όλους τους αγώνες.
  7. DDGHA: Αφαιρέστε τα τέρματα που δέχεται η γηπεδούχος (π.χ. 10) από τα τέρματα που πετυχαίνει εντός έδρας (π.χ. 26) και διαιρέστε το αποτέλεσμα με τον αριθμό (π.χ. 8) των εντός έδρας παιχνιδιών της (αποτέλεσμα 2,00). Κάντε το ίδιο για τη φιλοξενούμενη, αλλά για τα μεγέθη που αφορούν τα εκτός έδρας παιχνίδια της (π.χ. 1,30). Η διαφορά των δύο αυτών τιμών (0,70) είναι το στατιστικό μέγεθος που συναντούμε στη θέση αυτή.
  8. DPTSHA: Διαφορά μεταξύ βαθμών που έχει συγκεντρώσει η γηπεδούχος μόνο στους εντός έδρας αγώνες της και των βαθμών που έχει συγκεντρώσει η φιλοξενούμενη στους εκτός έδρας αγώνες της.
  9. DSOGHA: Διαφορά των shots on goal για τους εντός έδρας αγώνες της γηπεδούχου και των shots on goal για τους εκτός έδρας αγώνες της φιλοξενούμενης.
  10. DGHT: Διαφορά μεταξύ των μέσων όρων τερμάτων που έχει πετύχει κι έχει δεχθεί η γηπεδούχος ομάδα σε όλους τους αγώνες της.

Προσέξτε πως η αξιολόγηση των στατιστικών μεταξύ των δύο μεθόδων είναι σχεδόν πανομοιότυπη! Να τονίσω στο σημείο αυτό ότι ο πίνακας αναφέρεται στην Αγγλική Premier League. Ω ναι, η αξιολόγηση αλλάζει σε άλλα πρωταθλήματα! Ο Δημήτρης στην εργασία του παρουσιάζει ανάλογους πίνακες για τις πρώτες κατηγορίες του Ιταλικού, Γαλλικού και Νορβηγικού πρωταθλήματος.

Κι εσείς που νομίζατε ότι το Excel που φτιάξατε την προηγούμενη ώρα θα σας έστελνε… ταμείο. Το ξαναλέω: είναι πολύ δύσκολο να κερδίζεις στο στοίχημα.

Ποια στατιστικά βρίσκονται στον… πάτο της αξιολόγησης; Προς έκπληξη πολλών, η φόρμα των ομάδων, ή με άλλα λόγια τα αποτελέσματα των 4 τελευταίων αγώνων! Επειδή γνωρίζω ότι πολύς κόσμος στηρίζει τις προβλέψεις του στις πρόσφατες επιδόσεις των ομάδων, είμαι σίγουρος ότι κάποιοι θα αλλάξουν τρόπο σκέψης μετά το σημερινό κείμενο.

Όχι μόνο η φόρμα αλλά και το αποτέλεσμα του αμέσως προηγούμενου αγώνα περιλαμβάνεται στα 10 χειρότερα από πλευράς πρόβλεψης του αποτελέσματος στατιστικά! Δείτε ότι εξαιρουμένης της εκτίμησης των bookmakers για την ισοπαλία (draw) που είναι το δυσκολότερο όπως φαίνεται σημείο να προβλέψουν, τα υπόλοιπα στατιστικά έχουν το FORM και το LAST στους κωδικούς τους.

Αποκαλυπτικός ο πίνακας, έτσι;

Αξίζει εδώ να θυμίσω μια άλλη διπλωματική εργασία που είχαμε δει πριν λίγο καιρό, αυτή τη φορά του Πανεπιστημίου της Νέας Υόρκης, όπου εξεταζόταν η τάση (bias) των παικτών να στοιχηματίζουν με βάση τα προηγούμενα αποτελέσματα. Ρίξτε μια ματιά, νομίζω ότι ταιριάζει γάντι με ό,τι συζητάμε σήμερα.

Ορίζοντας το αποτέλεσμα (1-Χ-2) ως περιοχή στα νευρωνικά δίκτυα

Έχοντας αφήσει το σπουδαιότερο κομμάτι πίσω μας, θα πούμε εν τάχει τι συμβαίνει στα δεδομένα εξόδου. Είπαμε ότι αυτά είναι τα σημεία 1, Χ, 2 των αγώνων.

Πώς καταλαβαίνουν τα νευρωνικά δίκτυα τι σημαίνει 1, Χ και 2;

Δεν καταλαβαίνουν.

Είναι τρία σημεία που χρησιμοποιούμε ως άνθρωποι για να συμβολίσουμε εύκολα και γρήγορα το αποτέλεσμα ενός αγώνα. Το νευρωνικό δίκτυο όμως δεν μπορεί να ξεχωρίσει τον άσο από το Χ.

Δεν είναι μαύρο – γκρι – άσπρο, αλλά εκατοντάδες αποχρώσεις μεταξύ των τριών αυτών χρωμάτων. Κάπως έτσι πρέπει να το σκεφτείτε για να κατανοήσετε πώς κατέληξε στο παρακάτω σχήμα ο Δημήτρης.

neuronika-diktya-teliko-apotelesma-1x2-perioxi
Διαχωρισμός του χώρου εξόδου σε τρεις περιοχές

Από το μηδέν ως το d2x είναι το ανθρώπινο «διπλό», μεταξύ d2x και dx1 είναι η ισοπαλία κι από το dx1 ως τη μονάδα είναι ο άσος. Έτσι τα χαρακτηριστικά εξόδου των νευρωνικών δικτύων που είπα στην αρχή δεν είναι άλλο παρά ένας καθαρός αριθμός μεταξύ του μηδέν (0) και της μονάδας (1).

Αναλόγως τώρα τα dx1 και d2x, είμαστε σε θέση να αντιστοιχίσουμε τα αποτελέσματα των δικτύων με τα ανθρώπινα σημεία 1, Χ, 2.

Ο Δημήτρης κατέληξε πως τα d2x και dx1 είναι 0,36 και 0,50 αντίστοιχα. Για την Αγγλική Premier League. Καλά το μαντέψατε, οι περιοχές αλλάζουν για διαφορετικά πρωταθλήματα. Κι όχι μόνο αυτό, αλλά μεταβάλλονται και για διαφορετικά μοντέλα νευρωνικών δικτύων που θα δούμε ευθύς αμέσως!

Ποιο μοντέλο νευρωνικών δικτύων παράγει το μεγαλύτερο κέρδος

Τα μοντέλα νευρωνικών δικτύων που εξετάστηκαν είναι δύο, από ό,τι κατάλαβα (Χημικός Μηχανικός σπούδαζα, όχι Ηλεκτρολόγος Μηχανικός). Τα ασαφή μοντέλα και τα Support Vector Machines (SVM), στα οποία ανήκουν τα Support Vector Regression (SVR).

Οτιδήποτε τώρα κι αν γράψω σχετικά με αυτά, είμαι απολύτως σίγουρος ότι θα τα προσπεράσετε. Και καλά θα κάνετε, αφού όπως είπαμε εκείνο που μας ενδιαφέρει είναι τα συμπεράσματα και τα αποτελέσματα. Αφήστε που για τους περισσότερους θα είναι σαν να μιλάω κινέζικα. Καταλαβαίνετε τίποτα από το παρακάτω;

v-SVR montelo

Πρόκειται για τη συνάρτηση του μοντέλου v-SRV, ενός από τα μοντέλα νευρωνικών δικτύων, την απόδοση των οποίων παρουσίασε στην εργασία του ο φοιτητής του ΑΠΘ.

Εκείνο λοιπόν, στο οποίο κατέληξε ο Δημήτρης είναι ότι τα ασαφή μοντέλα νευρωνικών δικτύων παράγουν συστήματα με καλύτερο yield ή ROI στο στοίχημα. Την ίδια στιγμή, τα SVR μοντέλα διακρίνονται για τη σταθερότητα, όπως την ονομάζει, των κερδών. Με στοιχηματικούς όρους, πρόκειται για τη διακύμανση του κεφαλαίου, γνωστή ως variance.

Την επόμενη φορά θα δούμε κάποια παραδείγματα, αλλά και τα αποτελέσματα της εργασίας, ενώ στο μεθεπόμενο άρθρο θα κάνω τα δικά μου σχόλια με μερικές παρατηρήσεις. Ελπίζω να τα βρίσκετε ενδιαφέροντα και να μη σας κούρασα με την… πολυλογία μου, προσπαθώντας να χωρέσω μια πολύ καλή εργασία των 100 σελίδων σε 4 μόλις άρθρα.

Εικόνα μέσω Flickr.

Avatar photo

Ο Jim συνηθίζει να μετράει φύλλα στο Blackjack, να παίζει στοίχημα και πόκερ, αλλά και να επενδύει στις χρηματιστηριακές αγορές του κόσμου.