Μπορούν να προβλεφθούν οι αγώνες ποδοσφαίρου με τη χρήση νευρωνικών δικτύων; Καταφατική απάντηση δίνει η διπλωματική εργασία του Δημήτρη Ιωάννου, φοιτητή του Πολυτεχνείου Θεσσαλονίκης, εισαγωγή στην οποία κάναμε μόλις χθες, δίνοντας τα εύσημα στα ελληνικά Πανεπιστήμια. Σήμερα θα δούμε πώς έφτασε στα συμπεράσματα, εξηγώντας όσο γίνεται πιο απλά τη μεθοδολογία.
Εξήγησα τι είναι τα νευρωνικά δίκτυα στο χθεσινό άρθρο. Στα δίκτυα αυτά μας απασχολούν αρχικά δύο ειδών δεδομένα: τα χαρακτηριστικά εισόδου κι εξόδου. Με άλλα λόγια, ποιες μεταβλητές (ή στατιστικά αν θέλετε εν προκειμένου για το αθλητικό στοίχημα) χρειαζόμαστε για την εκπαίδευση του δικτύου και ποια μεγέθη καλείται το δίκτυο να προβλέψει. Στην περίπτωση του ποδοσφαιρικού στοιχήματος, τα μεγέθη αυτά δεν είναι άλλο από το τελικό αποτέλεσμα ενός αγώνα: 1, Χ ή 2.
Βεβαίως τα νευρωνικά δίκτυα είναι δυνατόν να εφαρμοστούν και σε οποιοδήποτε άλλο στοίχημα, όπως π.χ. το over/under. Στην εργασία που εξετάζουμε όμως, στόχος του Δημήτρη ήταν η πρόβλεψη του τελικού αποτελέσματος.
Ποια στατιστικά δίνουν τις καλύτερες προβλέψεις στο ποδοσφαιρικό στοίχημα
Προσωπικά με ενδιέφερε πολύ η απάντηση σε αυτό το ερώτημα. Έχοντας φτιάξει στο παρελθόν μερικές δεκάδες Excelόφυλλα, προσπαθώντας να λύσω το μυστήριο του στοιχήματος, συχνά αναρωτιόμουν αν τελικά η βαθμολογία, οι νίκες/ήττες και τα τέρματα που έχει πετύχει κάθε ομάδα ήταν τα μόνα στατιστικά που θα με βοηθούσαν.
Αποδεικνύεται πως όχι.
Και η μαθηματική απόδειξη του Δημήτρη δεν επιτρέπει αμφιβολίες περί τούτου.
Ως χαρακτηριστικά εισόδου λοιπόν στα νευρωνικά δίκτυα, εξετάστηκαν αρκετά στατιστικά ποδοσφαίρου που συναντάμε σε ποικίλες ιστοσελίδες του ίντερνετ. Πόσες εντός νίκες είχε η γηπεδούχος, πόσες εκτός ήττες είχε η φιλοξενούμενη ομάδα, πόσα τέρματα εντός κι εκτός έχουν πετύχει οι δυο ομάδες κι άλλα. Όλα αυτά πριν φυσικά την πραγματοποίηση κάθε αγώνα.
Ο παρακάτω πίνακας δείχνει την αξιολόγηση των στατιστικών δεδομένων, όσον αφορά τη βέλτιστη πρόβλεψη των πιθανοτήτων καθενός των τριών σημείων (1,Χ,2). Με απλά λόγια, ποιο στατιστικό φανερώνει καλύτερα τη διαφορά δυναμικότητας των δύο ομάδων. Δε θα μας απασχολήσουν οι δύο διαφορετικοί τρόποι (chi-square και information gain), βάσει των οποίων έγινε η σύγκριση των στατιστικών. Εκείνο που μετρά και μας ενδιαφέρει ως παίκτες στοιχήματος, είναι το συμπέρασμα.
Πρώτη λοιπόν, έρχεται η εκτίμηση των εταιριών στοιχημάτων (home/away), όπως αυτή αντικατοπτρίζεται από τις στοιχηματικές αποδόσεις, γεγονός που δεν μας εκπλήσσει. Όταν η νίκη μιας ομάδας προσφέρεται στο 2,00, είναι πολύ πιθανόν να κερδίσει κατά 50% περίπου.
Η συνέχεια όμως είναι άκρως ενδιαφέρουσα. Τα 10 καλύτερα στατιστικά για την πρόβλεψη ενός ποδοσφαιρικού αγώνα με τη χρήση νευρωνικών δικτύων σύμφωνα με τη διπλωματική εργασία είναι:
- DDGT: Πρόκειται για τη διαφορά των μέσων όρων διαφοράς συνολικών τερμάτων της γηπεδούχου και της φιλοξενούμενης. Σας μπέρδεψα; Αφαιρέστε τα γκολ που πέτυχε η γηπεδούχος (π.χ. 20) με αυτά που δέχτηκε (π.χ. 5) στους προηγούμενους αγώνες (π.χ. 10). Το αποτέλεσμα (15) διαιρέστε το με το αριθμό των συνολικών αγώνων (1,5). Κάντε το ίδιο για τη φιλοξενούμενη (π.χ. 1,1) και η διαφορά των δύο τιμών είναι το στατιστικό μέγεθος που βρίσκεται στην τρίτη θέση.
- DPTST: Η διαφορά βαθμών των δύο ομάδων στο βαθμολογικό πίνακα του πρωταθλήματος.
- DSOGT: Η διαφορά των τελικών επιθετικών προσπαθειών στο στόχο (shot on goal) μεταξύ γηπεδούχου και φιλοξενούμενης. Το μέγεθος αυτό είναι μάλιστα οριακά κοντά με το προηγούμενο, που σημαίνει ότι τα shots on goal είναι σχεδόν το ίδιο σημαντικά με το βαθμολογικό πίνακα!
- DGATT: Η διαφορά μέσων όρων τερμάτων που έχει δεχθεί η γηπεδούχος και των αντίστοιχων της φιλοξενούμενης στο σύνολο των αγώνων.
- PTSAT: Οι βαθμοί που έχει συγκεντρώσει η φιλοξενούμενη ομάδα σε όλους τους αγώνες της. Φαίνεται ότι είναι πολύ πιο σημαντικοί σε σχέση με τους βαθμούς της γηπεδούχου.
- DGFT: Διαφορά μεταξύ των μέσων όρων γκολ που έχει πετύχει η γηπεδούχος και εκείνων της φιλοξενούμενης σε όλους τους αγώνες.
- DDGHA: Αφαιρέστε τα τέρματα που δέχεται η γηπεδούχος (π.χ. 10) από τα τέρματα που πετυχαίνει εντός έδρας (π.χ. 26) και διαιρέστε το αποτέλεσμα με τον αριθμό (π.χ. 8) των εντός έδρας παιχνιδιών της (αποτέλεσμα 2,00). Κάντε το ίδιο για τη φιλοξενούμενη, αλλά για τα μεγέθη που αφορούν τα εκτός έδρας παιχνίδια της (π.χ. 1,30). Η διαφορά των δύο αυτών τιμών (0,70) είναι το στατιστικό μέγεθος που συναντούμε στη θέση αυτή.
- DPTSHA: Διαφορά μεταξύ βαθμών που έχει συγκεντρώσει η γηπεδούχος μόνο στους εντός έδρας αγώνες της και των βαθμών που έχει συγκεντρώσει η φιλοξενούμενη στους εκτός έδρας αγώνες της.
- DSOGHA: Διαφορά των shots on goal για τους εντός έδρας αγώνες της γηπεδούχου και των shots on goal για τους εκτός έδρας αγώνες της φιλοξενούμενης.
- DGHT: Διαφορά μεταξύ των μέσων όρων τερμάτων που έχει πετύχει κι έχει δεχθεί η γηπεδούχος ομάδα σε όλους τους αγώνες της.
Προσέξτε πως η αξιολόγηση των στατιστικών μεταξύ των δύο μεθόδων είναι σχεδόν πανομοιότυπη! Να τονίσω στο σημείο αυτό ότι ο πίνακας αναφέρεται στην Αγγλική Premier League. Ω ναι, η αξιολόγηση αλλάζει σε άλλα πρωταθλήματα! Ο Δημήτρης στην εργασία του παρουσιάζει ανάλογους πίνακες για τις πρώτες κατηγορίες του Ιταλικού, Γαλλικού και Νορβηγικού πρωταθλήματος.
Κι εσείς που νομίζατε ότι το Excel που φτιάξατε την προηγούμενη ώρα θα σας έστελνε… ταμείο. Το ξαναλέω: είναι πολύ δύσκολο να κερδίζεις στο στοίχημα.
Ποια στατιστικά βρίσκονται στον… πάτο της αξιολόγησης; Προς έκπληξη πολλών, η φόρμα των ομάδων, ή με άλλα λόγια τα αποτελέσματα των 4 τελευταίων αγώνων! Επειδή γνωρίζω ότι πολύς κόσμος στηρίζει τις προβλέψεις του στις πρόσφατες επιδόσεις των ομάδων, είμαι σίγουρος ότι κάποιοι θα αλλάξουν τρόπο σκέψης μετά το σημερινό κείμενο.
Όχι μόνο η φόρμα αλλά και το αποτέλεσμα του αμέσως προηγούμενου αγώνα περιλαμβάνεται στα 10 χειρότερα από πλευράς πρόβλεψης του αποτελέσματος στατιστικά! Δείτε ότι εξαιρουμένης της εκτίμησης των bookmakers για την ισοπαλία (draw) που είναι το δυσκολότερο όπως φαίνεται σημείο να προβλέψουν, τα υπόλοιπα στατιστικά έχουν το FORM και το LAST στους κωδικούς τους.
Αποκαλυπτικός ο πίνακας, έτσι;
Αξίζει εδώ να θυμίσω μια άλλη διπλωματική εργασία που είχαμε δει πριν λίγο καιρό, αυτή τη φορά του Πανεπιστημίου της Νέας Υόρκης, όπου εξεταζόταν η τάση (bias) των παικτών να στοιχηματίζουν με βάση τα προηγούμενα αποτελέσματα. Ρίξτε μια ματιά, νομίζω ότι ταιριάζει γάντι με ό,τι συζητάμε σήμερα.
Ορίζοντας το αποτέλεσμα (1-Χ-2) ως περιοχή στα νευρωνικά δίκτυα
Έχοντας αφήσει το σπουδαιότερο κομμάτι πίσω μας, θα πούμε εν τάχει τι συμβαίνει στα δεδομένα εξόδου. Είπαμε ότι αυτά είναι τα σημεία 1, Χ, 2 των αγώνων.
Πώς καταλαβαίνουν τα νευρωνικά δίκτυα τι σημαίνει 1, Χ και 2;
Δεν καταλαβαίνουν.
Είναι τρία σημεία που χρησιμοποιούμε ως άνθρωποι για να συμβολίσουμε εύκολα και γρήγορα το αποτέλεσμα ενός αγώνα. Το νευρωνικό δίκτυο όμως δεν μπορεί να ξεχωρίσει τον άσο από το Χ.
Δεν είναι μαύρο – γκρι – άσπρο, αλλά εκατοντάδες αποχρώσεις μεταξύ των τριών αυτών χρωμάτων. Κάπως έτσι πρέπει να το σκεφτείτε για να κατανοήσετε πώς κατέληξε στο παρακάτω σχήμα ο Δημήτρης.
Από το μηδέν ως το d2x είναι το ανθρώπινο «διπλό», μεταξύ d2x και dx1 είναι η ισοπαλία κι από το dx1 ως τη μονάδα είναι ο άσος. Έτσι τα χαρακτηριστικά εξόδου των νευρωνικών δικτύων που είπα στην αρχή δεν είναι άλλο παρά ένας καθαρός αριθμός μεταξύ του μηδέν (0) και της μονάδας (1).
Αναλόγως τώρα τα dx1 και d2x, είμαστε σε θέση να αντιστοιχίσουμε τα αποτελέσματα των δικτύων με τα ανθρώπινα σημεία 1, Χ, 2.
Ο Δημήτρης κατέληξε πως τα d2x και dx1 είναι 0,36 και 0,50 αντίστοιχα. Για την Αγγλική Premier League. Καλά το μαντέψατε, οι περιοχές αλλάζουν για διαφορετικά πρωταθλήματα. Κι όχι μόνο αυτό, αλλά μεταβάλλονται και για διαφορετικά μοντέλα νευρωνικών δικτύων που θα δούμε ευθύς αμέσως!
Ποιο μοντέλο νευρωνικών δικτύων παράγει το μεγαλύτερο κέρδος
Τα μοντέλα νευρωνικών δικτύων που εξετάστηκαν είναι δύο, από ό,τι κατάλαβα (Χημικός Μηχανικός σπούδαζα, όχι Ηλεκτρολόγος Μηχανικός). Τα ασαφή μοντέλα και τα Support Vector Machines (SVM), στα οποία ανήκουν τα Support Vector Regression (SVR).
Οτιδήποτε τώρα κι αν γράψω σχετικά με αυτά, είμαι απολύτως σίγουρος ότι θα τα προσπεράσετε. Και καλά θα κάνετε, αφού όπως είπαμε εκείνο που μας ενδιαφέρει είναι τα συμπεράσματα και τα αποτελέσματα. Αφήστε που για τους περισσότερους θα είναι σαν να μιλάω κινέζικα. Καταλαβαίνετε τίποτα από το παρακάτω;
Πρόκειται για τη συνάρτηση του μοντέλου v-SRV, ενός από τα μοντέλα νευρωνικών δικτύων, την απόδοση των οποίων παρουσίασε στην εργασία του ο φοιτητής του ΑΠΘ.
Εκείνο λοιπόν, στο οποίο κατέληξε ο Δημήτρης είναι ότι τα ασαφή μοντέλα νευρωνικών δικτύων παράγουν συστήματα με καλύτερο yield ή ROI στο στοίχημα. Την ίδια στιγμή, τα SVR μοντέλα διακρίνονται για τη σταθερότητα, όπως την ονομάζει, των κερδών. Με στοιχηματικούς όρους, πρόκειται για τη διακύμανση του κεφαλαίου, γνωστή ως variance.
Την επόμενη φορά θα δούμε κάποια παραδείγματα, αλλά και τα αποτελέσματα της εργασίας, ενώ στο μεθεπόμενο άρθρο θα κάνω τα δικά μου σχόλια με μερικές παρατηρήσεις. Ελπίζω να τα βρίσκετε ενδιαφέροντα και να μη σας κούρασα με την… πολυλογία μου, προσπαθώντας να χωρέσω μια πολύ καλή εργασία των 100 σελίδων σε 4 μόλις άρθρα.
Εικόνα μέσω Flickr.
6 Comments
Καλησπέρα και συγχαρητήρια για τα εξαιρετικά κείμενα. Από αυτήν εδώ την έρευνα στην Premier League (http://www.soccerstatistically.com/blog/2011/7/11/answer-to-my-question-via-twitter-posted-earlier.html) είχε προκύψει ακριβώς το αντίθετο συμπέρασμα από αυτό του άρθρου. Δηλαδή πως τα shots on goal έχουν μικρή συσχέτιση με τους πόντους της κάθε ομάδας. Μεγάλη συσχέτιση έχουν λέει τα κόρνερ. Αυτός ο παράγοντας εξετάστηκε στην εργασία; Για ποιο λόγο τόσο διαφορετικά συμπεράσματα;
Τα “τόσο διαφορετικά συμπεράσματα” προκύπτουν επειδή δεν υπάρχει ένας και μοναδικός τρόπος να μελετήσεις (στατιστικά) το άθλημα και να το προβλέψεις. Όσα συστήματα δίνουν θετικό ROI, είναι αποδεκτά, ακόμα και αν στην πράξη έχουν κάποιες “κόντρες” μεταξύ τους όσον αφορά τι συνυπολογίζουν. Εγώ πχ. έχω ένα σύστημα που αποδίδει 5% ROI εδώ και τρία χρόνια, με δείγμα αγώνων σχεδόν 700. Δε θα το ήθελες; Θα σε ένοιαζε τι “μαγειρέματα” κάνει για να προβλέψει;
Έχω πει αρκετές φορές, κάνω copy και εδώ:
Όποιος φτάνει σε αυτό το βάθος στην ενασχόληση με το άθλημα, δε χρειάζεται πλέον νούμερα για να αποδείξει κάτι. Μάλλον κερδίζει, πιθανότατα δε χάνει. Οι εταιρείες δε θέλουν καν τέτοιους παίκτες, πιο πιθανό είναι να σε πετάξουν έξω, παρά να κερδίσεις σοβαρά ποσά από αυτές.
Συγχαρητήρια για τη δουλειά σου να φτάσεις σε ένα τέτοιο επίπεδο και για τη δουλειά σου πάνω στο σύστημα. Προφανώς και θα ήθελα οποιοδήποτε κερδοφόρο σύστημα, αλλά και τα “μαγειρέματα” που λες θα συνέχιζαν να με ενδιαφέρουν και εξηγώ το γιατί. Διότι μπορεί ο δημιουργός τους να είχε θέσει παραμέτρους που δεν ήταν χρήσιμοι ως προς την κερδοφορία, και έτσι είτε να αφαιρούσε αγώνες που ήταν κερδοφόροι, είτε να προσέθετε κάποιους που είχαν μηδενικό ή αρνητικό ROI. Οπότε, με τον στόχο της μεγιστοποίησης του κέρδους θα όφειλα να το βελτιώσω.
Παρεμπιπτόντως, πριν κάποια χρόνια είχα βρει αυτό το site που σου προσφέρει τα δεδομένα και τον τρόπο επεξεργασίας τους ώστε να δεις αν το σύστημά σου είναι κερδοφόρο, χωρίς όμως ποτέ να το δοκιμάσω. Ίσως το κάνω σύντομα, μιας και το ποσό που απαιτείται δεν είναι ιδιαίτερα μεγάλο.
http://soccersystembuilder.co.uk/
Από μια γρήγορη επίσκεψη στο παραπάνω link, μια συμβουλή: μη τους δώσεις λεφτά..
πάντα τα καλύτερα σε αυτό το site…ευχαριστώ για τα άρθρα Jim. Στα επόμενα άρθρα θα υπάρξει αναφορά για το αν είναι δυνατόν ο καθένας μας να τρέξει (που,πως κτλ) τέτοια δίκτυα την πράξη; Χωρίς να μπορεί να καταλαβαίνει 100% το επιστημονικό περιεχόμενο;
Δε μπορώ να καταλάβω με ποιά κριτήρια χώρισε τις περιοχές ο φοιτητής ώστε να παίρνει απαντήσεις για 1-Χ-2.Τα νευρωνικά δίκτυα είναι άριστα για να απαντούν ΝΑΙ-ΟΧΙ, για παράδειγμα ένα Under-Over είναι καλή επιλογή.Υποθέτω ότι ο διαχωρισμός έγινε με βάση τα αποτελέσματα σε κάθε πρωτάθλημα (για αυτό έχει και διαφορετικό για κάθε ένα).