32,66%. Τόσο είναι το μεγαλύτερο yield ή ROI που κατέγραψε η μελέτη της διπλωματικής εργασία του Δημήτρη Ιωάννου, που ασχολήθηκε με τις προβλέψεις αγώνων ποδοσφαίρου με μοντέλα νευρωνικών δικτύων. Το εντυπωσιακό αυτό ποσοστό εμφανίζεται στην πρώτη κατηγορία της Ιταλίας (Serie A).
Το ακόμα πιο εντυπωσιακό όμως είναι ότι τα νευρωνικά δίκτυα κατάφεραν θετικό yield και μάλιστα άνω του 5% σε πέντε δημοφιλή Ευρωπαϊκά πρωταθλήματα! Για τα τέσσερα προηγούμενα χρόνια!
Ας τα πάρουμε με τη σειρά.
Καταρχήν να υπενθυμίσω στους νέους αναγνώστες, ότι το άρθρο αυτό είναι το τρίτο της σειράς περί νευρωνικών δικτύων και στοιχήματος. Προηγήθηκε η απαραίτητη εισαγωγή και η εύρεση των καλύτερων στατιστικών σύμφωνα με τα νευρωνικά δίκτυα. Καλύτερα να τα διαβάσετε πρώτα εκείνα για την καλύτερη κατανόηση όσων ακολουθήσουν.
Πάμε λοιπόν.
Περιεχόμενα
Παραδοχές κι αδυναμίες του συστήματος των νευρωνικών δικτύων
Ο δημιουργός της διπλωματικής εργασίας που εξετάζουμε, έκανε ορισμένες παραδοχές, ενώ τόνισε αδυναμίες των νευρωνικών δικτύων. Νομίζω ότι καλύτερα να ξεκινήσουμε από αυτά, για να ξεκαθαρίζει λίγο το τοπίο και να απαντηθούν κάποια ερωτήματά σας:
- Τα νευρωνικά δίκτυα δεν λαμβάνουν υπόψη απουσίες και τραυματισμούς. Το θέμα δεν αφορά αποκλειστικά τα νευρωνικά δίκτυα, αλλά το σύνολο της ψυχρής στατιστικής ανάλυσης. Σύμφωνοι, τα αποτελέσματα πιθανόν να φανερώνουν την άσχημη αγωνιστική κατάσταση και σύνθεση μιας ομάδας, δεν υπάρχει ωστόσο τρόπος να συνυπολογίσουμε τον παράγοντα των απουσιών σε ένα μαθηματικό μοντέλο. Έστω 11 όταν παίζουν οι βασικοί και 9 όταν λείπουν οι δύο επιθετικοί; Μπακάλικα πράγματα και εδώ μόνο μπακάλικα δεν κουβεντιάζουμε!
- Ο κίνδυνος της υπερ-εκπαίδευσης των νευρωνικών δικτύων. Κοινώς, τα… «λιώνουμε» μέχρι να φέρουν το καλύτερο δυνατό αποτέλεσμα. Φανταστείτε ότι προσπαθείτε να ταιριάξετε μια γραμμή πάνω σε δεκάδες κουκίδες. Ακόμα κι αν τα καταφέρετε, το μοντέλο σας είναι τόσο συγκεκριμένο, που η παραμικρή μελλοντική κουκίδα που θα αποκλίνει από την προέκταση της σχεδιασμένης σας γραμμής, θα καταστήσει το σύστημά σας άκαρπο. Όπως αναφέρει ο φοιτητής του Πολυτεχνείου: «το μοντέλο εξειδικεύεται στα δεδομένα εκπαίδευσης και χάνει την ικανότητα γενίκευσης και σωστής ταξινόμησης νέων, άγνωστων δεδομένων». Με απλά λόγια, είναι πιθανόν το επιτυχημένο σήμερα μοντέλο, να αποτύχει σε λίγα χρόνια, καθώς τα αθλήματα και το στοίχημα εξελίσσονται. Γνωρίζετε κάποιο σύστημα που δουλεύει το ίδιο για δεκαετίες με την ίδια επιτυχία; Παθών…
- [Παραδοχή] Αφαίρεση πρώτων/τελευταίων αγωνιστικών για καλύτερη πρόβλεψη. Ο Δημήτρης αποφάσισε να αγνοήσει τις πρώτες 12 και τις 6 τελευταίες αγωνιστικές της Premier League. Ανάλογα έπραξε και στα άλλα τέσσερα πρωταθλήματα (Ιταλία, Γαλλία, Νορβηγία, Γερμανία). Συγκεκριμένα, αναφέρει:
Μία ακόμη σημαντική παραδοχή σχετικά με τα σετ δεδομένων, είναι πως δεν περιλαμβάνουμε σε αυτά όλους τους αγώνες μίας χρονιάς, αλλά κόβουμε από την αρχή και από το τέλος της καθεμιάς. Δηλαδή δεν επιχειρούμε προβλέψεις σε αυτές τις δύο περιόδους. Ο λόγος είναι πως, για τη μεν αρχή, δεν έχουν γίνει ακόμη αρκετοί αγώνες ώστε να έχουμε ικανοποιητική εικόνα για την φετινή κατάσταση των ομάδων, ενώ από την άλλη, στους τελευταίους αγώνες της χρονιάς παρατηρούνται “ανώμαλες” συμπεριφορές καθώς πολλές ομάδες που έχουν μείνει χωρίς στόχους παρουσιάζουν τεράστιες μεταβολές στη συμπεριφορά τους σε σχέση με την υπόλοιπη σεζόν.
- [Παραδοχή] Αφαίρεση στοιχημάτων με απόδοση κάτω του 1,90 ή 1,70 κατά περίπτωση. Δίνει τους δικούς του λόγους, τους οποίους όπως είπα στο κείμενο που προηγήθηκε, θα σχολιάσω την επόμενη φορά.
Αυτό συμβαίνει διότι, δεν έχει καμία αξία να ποντάρουμε σε αγώνες στους οποίους υπάρχει ξεκάθαρο φαβορί για τη νίκη, όσο κι αν αυτό ακούγεται σαν να αντιτίθεται στην κοινή λογική. Με άλλα λόγια, δεν αξίζει το ρίσκο 100 μονάδων σε ένα αποτέλεσμα με απόδοση π.χ. 1.20 για να έχουμε ένα καθαρό κέρδος μόλις 20 μονάδων. Αυτό συμβαίνει γιατί οι “σίγουρες” νίκες σε ένα άθλημα σαν το ποδόσφαιρο, τελικά δεν είναι και τόσο σίγουρες. Σε περίπτωση που “χάναμε” έναν τέτοιο “σίγουρο” αγώνα (απώλεια 100 μονάδων), θα χρειαζόταν να κερδίσουμε τους επόμενους πέντε “σίγουρους”, μόνο και μόνο για να καλυφθεί αυτή η απώλεια, κάτι το οποίο δεν είναι καθόλου εύκολο, ενώ σε περίπτωση νέου “στραβού” αποτελέσματος, οι απώλειες θα συσσωρεύονται.
Πόσο δείγμα χρειάστηκαν τα νευρωνικά δίκτυα για ασφαλή συμπεράσματα
Ο Δημήτρης εξαρχής στηρίχθηκε στα στατιστικά δεδομένα μεταξύ 2004/2005 και 2008/2009 προκειμένου να «εκπαιδεύσει» τα νευρωνικά δίκτυα και τα αποτελέσματα μεταξύ 2009/2010 και 2012/2013 για τον έλεγχο των μοντέλων. Έτσι «δούλεψε» με στοιχεία 5 ετών και δοκίμασε τα συστήματα σε βάθος 4 ετών.
Σας προκαλώ απλώς να συλλέξτε στατιστικά τόσων ετών και να τα συγκεντρώσετε ευανάγνωστα σε ένα Excel, πόσο μάλλον να τα αξιοποιήσετε κιόλας!
Ναι, το έκανε γιατί είχε μια διπλωματική εργασία να ολοκληρώσει. Είχε να κάνει μια δουλειά. Εσείς πώς περιμένετε να κερδίσετε στο στοίχημα; Ξαπλωμένοι στον καναπέ με το κινητό, ή μήπως διαβάζοντας περιστασιακά μια εφημερίδα που έπεσε στα χέρια σας; Νομίζετε είναι ευκολότερο από οποιαδήποτε άλλη δουλειά;
Όχι, δεν είναι.
Επιστρέφοντας στην εργασία του Δημήτρη, ο τελευταίος σύμφωνα με τα όσα είπαμε παραπάνω, είχε στη διάθεσή του περίπου 1.800 αγώνες, εκ των οποίων οι 800 (4 τελευταίες σεζόν) θα αποδείκνυαν αν το σύστημά του ήταν κερδοφόρο. Μπόλικο δείγμα που λέμε.
Με ρωτάτε στα emails αν 100 αγώνες είναι ικανοποιητικό δείγμα. Ιδού τι απαντά ο ίδιος ο Δημήτρης σχετικά:
Φυσικά, όσο μεγαλύτερη η μέση απόδοση και όσο μικρότερα τα ποσοστά επιτυχίας, τόσο μεγαλύτερο μέγεθος δείγματος χρειαζόμαστε ώστε να είμαστε ασφαλείς. Εδώ έχουμε 460 αγώνες σε 4 χρόνια, που μπορούμε να πούμε πως είναι αρκετά ενθαρρυντικό.
460 αγώνες. Σε τέσσερα χρόνια.
«Αρκετά ενθαρρυντικό» αποτέλεσμα με αυτό το δείγμα. Να σας πω σε πόσο ROI αναφέρεται το παραπάνω;
Σε 18,46% και με συχνότητα επιτυχιών (strike ή hit rate όπως το λένε οι περισσότεροι) 37,83%! Δηλαδή, πάνω από 1 στα 3 κερδισμένα στοιχήματα.
Οπότε όταν λέτε ότι κερδίζετε με 4% σε 100 στοιχήματα και με 25% επιτυχημένες επιλογές, φοβάμαι πως χρειάζεστε ΠΟΛΥ μεγαλύτερο δείγμα.
Ακόμα ρωτάτε γιατί; Ξαναδιαβάστε τις τέσσερεις προηγούμενες γραμμές. Άλλη μια φορά. Δεν είναι ντροπή, ξαναδιαβάστε, δε σας βλέπει κανείς. Διαβάστε το μέχρι να έχετε εκείνη την “Αχααα” αίσθηση!
Γιατί όμως 460 αγώνες κι όχι 800 που ήταν αρχικά;
Η μέθοδος πρόβλεψης των αποτελεσμάτων και η βελτιστοποίησή της
Την πρώτη φορά που «έτρεξε» ένα ασαφές σύστημα νευρωνικών δικτύων για τους αγώνες της Premier League, το ROI άγγιξε το 7,29%! Ιδού πως κυμάνθηκαν τα κέρδη του:
Ο Δημήτρης μάλλον ήταν ήδη ευχαριστημένος, αφού όπως γράφει σε άλλο μέρος της εργασίας του:
Όσο για το ποιο ποσοστό θεωρείται καλό, δεν υπάρχει σαφής απάντηση. Κατά γενική ομολογία πάντως, στον αθλητικό στοιχηματισμό ένα yield της τάξης του 7% και άνω θεωρείται πάρα πολύ καλό.
Στη συνέχεια έκανε την παραδοχή να αφαιρέσει τα στοιχήματα με απόδοση 1,90 και κάτω. Το ROI εκτοξεύθηκε στο 19,5% και χαρακτήρισε την εκδοχή αυτή του μοντέλου, «ρεαλιστική»!
Βλέπουμε ότι από 800 στοιχήματα, τώρα πλέον στοιχημάτισε σε 427.
Έπειτα δοκίμασε το SVR μοντέλο με το yield αρχικά μόλις να ξεπερνά το μηδέν (2,23%). Εξετάζοντας όμως τη «ρεαλιστική» του εκδοχή με αποδόσεις απαραίτητα άνω του 1,90, το αποτέλεσμα ήταν εξίσου ενθαρρυντικό με το ασαφές σύστημα. Προσέξτε τη διαφορά που έκανε αυτή η παραδοχή στα δύο γραφήματα.
Ανάλογα ήταν τα αποτελέσματα και για τα πρωταθλήματα Ιταλίας, Γαλλίας, Νορβηγίας και Γερμανίας. Ενδεικτικά παρουσιάζεται ο παρακάτω πίνακας. Υπενθυμίζω ότι εξετάστηκαν δύο μοντέλα (αφελές-fuzzy και SVR), στα οποία έγινε επιπλέον η παραδοχή της αποφυγής χαμηλών αποδόσεων (ρεαλιστικά ή real world).
Τέλος, για να γίνει καλύτερα αντιληπτό το πλεονέκτημα του SVR μοντέλου σχετικά με τη διακύμανση του κεφαλαίου, αρκεί κανείς να δει τα γραφήματα για το Νορβηγικό πρωτάθλημα.
Τα SVR γραφήματα έχουν σαφώς μικρότερες εξάρσεις, που σημαίνει ότι απουσιάζουν μεγάλης διάρκειας αρνητικά σερί. Ναι, εκείνες οι «αγαπημένες» σας μέρες που όλα σας πάνε στραβά.
Όμως ο Δημήτρης δεν σταμάτησε εκεί και προχώρησε τη βελτιστοποίηση ακόμα ένα βήμα με τη βοήθεια της… σύνθεσης αποφάσεων ή decision fusion. Και πάλι, θα προσπεράσω τη αγαπητή σε όλους θεωρία (πώς σας καταλαβαίνω, ε;) και θα περάσω στην πράξη.
Είπαμε ότι έχουμε επιλέξει τα καλύτερα στατιστικά για την πρόβλεψη των αγώνων. Για την Premier League ο Δημήτρης επέλεξε τα πρώτα 12 για τα μοντέλα του. Τώρα, χώρισε τα 12 αυτά στατιστικά σε δύο 6άδες και δημιούργησε δύο ξεχωριστά νέα μοντέλα. Έτσι στην ουσία είχε πλέον 3 διαφορετικά μοντέλα νευρωνικών δικτύων για την Premier League. Ένα βασιζόταν σε 12 στατιστικά, ένα άλλο στα πρώτα 6 και ένα ακόμα στα επόμενα 6.
Κατέληξε μετά από αρκετές δοκιμές στο εξής: για να στοιχηματίσουμε στον άσο, θα έπρεπε ΚΑΙ ΤΑ ΤΡΙΑ μοντέλα να προβλέπουν 1 (ομοφωνία). Αν η πρόβλεψη ήταν 1, 1 και Χ, το στοίχημα απορριπτόταν. Για τα άλλα δύο σημεία (Χ και 2), θα ίσχυε η πλειοψηφία, δηλαδή δύο τουλάχιστον μοντέλα να προέβλεπαν το ίδιο σημείο (π.χ. 2,1,2 άρα πρόβλεψη για νίκη της φιλοξενούμενης).
Αυτό είχε ως αποτέλεσμα φυσικά τη δραματική μείωση των «ενεργών» προβλέψεων. Έτσι, από τους 800 αγώνες που θα στοιχηματίζαμε στα 4 προηγούμενα χρόνια, τώρα θα στοιχηματίζαμε λιγότερους από 300. Ταυτόχρονα όμως, η ανταμοιβή μας σε μονάδες ROI/yield θα ήταν σημαντικότατη. Το 7,29% έγινε 11,4% και το 19,5% αναρριχήθηκε στο 26,18% για την αγγλική Premier League!
Την ίδια συμπεριφορά παρουσίασαν και τα SVR μοντέλα. Ας δούμε κλείνοντας τα αποτελέσματα της ιταλικής Serie A. Μας ενδιαφέρει η σύγκριση της «ομοφωνίας» και του απλού αντίστοιχου μοντέλου, όχι της απλής πλειοψηφίας, μιας και διαπιστώθηκε ότι δεν εμφανίζει οφέλη ή πλεονεκτήματα.
Τι θα επέλεγα αν είχα στη διάθεσή μου όλα αυτά τα συστήματα νευρωνικών δικτύων; Πολλοί θα λέγατε το αφελές/fuzzy με ομοφωνία… δαγκωτό! Το 32,66% βγάζει μάτια. Μη βιάζεστε όμως. Θα πρέπει να κάνουμε μια σωστή σύγκριση των μεγεθών σαν καλοί παίκτες του στοιχήματος που είμαστε.
Και σαν τέτοιοι, έχουμε μάθει να κάνουμε υπομονή. Η συνέχεια της ανάλυσης των νευρωνικών δικτύων στο επόμενο και τελευταίο άρθρο της σειράς αυτής, όπου θα κάνουμε μερικές παρατηρήσεις, θα σχολιάσουμε τα αποτελέσματα και θα απαντήσω σε τυχόν ερωτήματα, που ήδη έχουν αρχίσει μα μαζεύονται στα σχόλια. Keep them coming.
Μην ξεχνάμε τέλος, να δώσουμε τα συγχαρητήριά μας τόσο στον επιβλέποντα καθηγητή, Ιωάννη Θεοχάρη, όσο και στον Δημήτρη Ιωάννου, χάρη στους οποίους βρισκόμαστε σήμερα εδώ να διευρύνουμε τους στοιχηματικούς ορίζοντές μας. Εύγε κύριοι!
Αρχική εικόνα μέσω Flickr.