32,66%. Τόσο είναι το μεγαλύτερο yield ή ROI που κατέγραψε η μελέτη της διπλωματικής εργασία του Δημήτρη Ιωάννου, που ασχολήθηκε με τις προβλέψεις αγώνων ποδοσφαίρου με μοντέλα νευρωνικών δικτύων. Το εντυπωσιακό αυτό ποσοστό εμφανίζεται στην πρώτη κατηγορία της Ιταλίας (Serie A).
Το ακόμα πιο εντυπωσιακό όμως είναι ότι τα νευρωνικά δίκτυα κατάφεραν θετικό yield και μάλιστα άνω του 5% σε πέντε δημοφιλή Ευρωπαϊκά πρωταθλήματα! Για τα τέσσερα προηγούμενα χρόνια!
Ας τα πάρουμε με τη σειρά.
Καταρχήν να υπενθυμίσω στους νέους αναγνώστες, ότι το άρθρο αυτό είναι το τρίτο της σειράς περί νευρωνικών δικτύων και στοιχήματος. Προηγήθηκε η απαραίτητη εισαγωγή και η εύρεση των καλύτερων στατιστικών σύμφωνα με τα νευρωνικά δίκτυα. Καλύτερα να τα διαβάσετε πρώτα εκείνα για την καλύτερη κατανόηση όσων ακολουθήσουν.
Πάμε λοιπόν.
Παραδοχές κι αδυναμίες του συστήματος των νευρωνικών δικτύων
Ο δημιουργός της διπλωματικής εργασίας που εξετάζουμε, έκανε ορισμένες παραδοχές, ενώ τόνισε αδυναμίες των νευρωνικών δικτύων. Νομίζω ότι καλύτερα να ξεκινήσουμε από αυτά, για να ξεκαθαρίζει λίγο το τοπίο και να απαντηθούν κάποια ερωτήματά σας:
- Τα νευρωνικά δίκτυα δεν λαμβάνουν υπόψη απουσίες και τραυματισμούς. Το θέμα δεν αφορά αποκλειστικά τα νευρωνικά δίκτυα, αλλά το σύνολο της ψυχρής στατιστικής ανάλυσης. Σύμφωνοι, τα αποτελέσματα πιθανόν να φανερώνουν την άσχημη αγωνιστική κατάσταση και σύνθεση μιας ομάδας, δεν υπάρχει ωστόσο τρόπος να συνυπολογίσουμε τον παράγοντα των απουσιών σε ένα μαθηματικό μοντέλο. Έστω 11 όταν παίζουν οι βασικοί και 9 όταν λείπουν οι δύο επιθετικοί; Μπακάλικα πράγματα και εδώ μόνο μπακάλικα δεν κουβεντιάζουμε!
- Ο κίνδυνος της υπερ-εκπαίδευσης των νευρωνικών δικτύων. Κοινώς, τα… «λιώνουμε» μέχρι να φέρουν το καλύτερο δυνατό αποτέλεσμα. Φανταστείτε ότι προσπαθείτε να ταιριάξετε μια γραμμή πάνω σε δεκάδες κουκίδες. Ακόμα κι αν τα καταφέρετε, το μοντέλο σας είναι τόσο συγκεκριμένο, που η παραμικρή μελλοντική κουκίδα που θα αποκλίνει από την προέκταση της σχεδιασμένης σας γραμμής, θα καταστήσει το σύστημά σας άκαρπο. Όπως αναφέρει ο φοιτητής του Πολυτεχνείου: «το μοντέλο εξειδικεύεται στα δεδομένα εκπαίδευσης και χάνει την ικανότητα γενίκευσης και σωστής ταξινόμησης νέων, άγνωστων δεδομένων». Με απλά λόγια, είναι πιθανόν το επιτυχημένο σήμερα μοντέλο, να αποτύχει σε λίγα χρόνια, καθώς τα αθλήματα και το στοίχημα εξελίσσονται. Γνωρίζετε κάποιο σύστημα που δουλεύει το ίδιο για δεκαετίες με την ίδια επιτυχία; Παθών…
- [Παραδοχή] Αφαίρεση πρώτων/τελευταίων αγωνιστικών για καλύτερη πρόβλεψη. Ο Δημήτρης αποφάσισε να αγνοήσει τις πρώτες 12 και τις 6 τελευταίες αγωνιστικές της Premier League. Ανάλογα έπραξε και στα άλλα τέσσερα πρωταθλήματα (Ιταλία, Γαλλία, Νορβηγία, Γερμανία). Συγκεκριμένα, αναφέρει:
Μία ακόμη σημαντική παραδοχή σχετικά με τα σετ δεδομένων, είναι πως δεν περιλαμβάνουμε σε αυτά όλους τους αγώνες μίας χρονιάς, αλλά κόβουμε από την αρχή και από το τέλος της καθεμιάς. Δηλαδή δεν επιχειρούμε προβλέψεις σε αυτές τις δύο περιόδους. Ο λόγος είναι πως, για τη μεν αρχή, δεν έχουν γίνει ακόμη αρκετοί αγώνες ώστε να έχουμε ικανοποιητική εικόνα για την φετινή κατάσταση των ομάδων, ενώ από την άλλη, στους τελευταίους αγώνες της χρονιάς παρατηρούνται “ανώμαλες” συμπεριφορές καθώς πολλές ομάδες που έχουν μείνει χωρίς στόχους παρουσιάζουν τεράστιες μεταβολές στη συμπεριφορά τους σε σχέση με την υπόλοιπη σεζόν.
- [Παραδοχή] Αφαίρεση στοιχημάτων με απόδοση κάτω του 1,90 ή 1,70 κατά περίπτωση. Δίνει τους δικούς του λόγους, τους οποίους όπως είπα στο κείμενο που προηγήθηκε, θα σχολιάσω την επόμενη φορά.
Αυτό συμβαίνει διότι, δεν έχει καμία αξία να ποντάρουμε σε αγώνες στους οποίους υπάρχει ξεκάθαρο φαβορί για τη νίκη, όσο κι αν αυτό ακούγεται σαν να αντιτίθεται στην κοινή λογική. Με άλλα λόγια, δεν αξίζει το ρίσκο 100 μονάδων σε ένα αποτέλεσμα με απόδοση π.χ. 1.20 για να έχουμε ένα καθαρό κέρδος μόλις 20 μονάδων. Αυτό συμβαίνει γιατί οι “σίγουρες” νίκες σε ένα άθλημα σαν το ποδόσφαιρο, τελικά δεν είναι και τόσο σίγουρες. Σε περίπτωση που “χάναμε” έναν τέτοιο “σίγουρο” αγώνα (απώλεια 100 μονάδων), θα χρειαζόταν να κερδίσουμε τους επόμενους πέντε “σίγουρους”, μόνο και μόνο για να καλυφθεί αυτή η απώλεια, κάτι το οποίο δεν είναι καθόλου εύκολο, ενώ σε περίπτωση νέου “στραβού” αποτελέσματος, οι απώλειες θα συσσωρεύονται.
Πόσο δείγμα χρειάστηκαν τα νευρωνικά δίκτυα για ασφαλή συμπεράσματα
Ο Δημήτρης εξαρχής στηρίχθηκε στα στατιστικά δεδομένα μεταξύ 2004/2005 και 2008/2009 προκειμένου να «εκπαιδεύσει» τα νευρωνικά δίκτυα και τα αποτελέσματα μεταξύ 2009/2010 και 2012/2013 για τον έλεγχο των μοντέλων. Έτσι «δούλεψε» με στοιχεία 5 ετών και δοκίμασε τα συστήματα σε βάθος 4 ετών.
Σας προκαλώ απλώς να συλλέξτε στατιστικά τόσων ετών και να τα συγκεντρώσετε ευανάγνωστα σε ένα Excel, πόσο μάλλον να τα αξιοποιήσετε κιόλας!
Ναι, το έκανε γιατί είχε μια διπλωματική εργασία να ολοκληρώσει. Είχε να κάνει μια δουλειά. Εσείς πώς περιμένετε να κερδίσετε στο στοίχημα; Ξαπλωμένοι στον καναπέ με το κινητό, ή μήπως διαβάζοντας περιστασιακά μια εφημερίδα που έπεσε στα χέρια σας; Νομίζετε είναι ευκολότερο από οποιαδήποτε άλλη δουλειά;
Όχι, δεν είναι.
Επιστρέφοντας στην εργασία του Δημήτρη, ο τελευταίος σύμφωνα με τα όσα είπαμε παραπάνω, είχε στη διάθεσή του περίπου 1.800 αγώνες, εκ των οποίων οι 800 (4 τελευταίες σεζόν) θα αποδείκνυαν αν το σύστημά του ήταν κερδοφόρο. Μπόλικο δείγμα που λέμε.
Με ρωτάτε στα emails αν 100 αγώνες είναι ικανοποιητικό δείγμα. Ιδού τι απαντά ο ίδιος ο Δημήτρης σχετικά:
Φυσικά, όσο μεγαλύτερη η μέση απόδοση και όσο μικρότερα τα ποσοστά επιτυχίας, τόσο μεγαλύτερο μέγεθος δείγματος χρειαζόμαστε ώστε να είμαστε ασφαλείς. Εδώ έχουμε 460 αγώνες σε 4 χρόνια, που μπορούμε να πούμε πως είναι αρκετά ενθαρρυντικό.
460 αγώνες. Σε τέσσερα χρόνια.
«Αρκετά ενθαρρυντικό» αποτέλεσμα με αυτό το δείγμα. Να σας πω σε πόσο ROI αναφέρεται το παραπάνω;
Σε 18,46% και με συχνότητα επιτυχιών (strike ή hit rate όπως το λένε οι περισσότεροι) 37,83%! Δηλαδή, πάνω από 1 στα 3 κερδισμένα στοιχήματα.
Οπότε όταν λέτε ότι κερδίζετε με 4% σε 100 στοιχήματα και με 25% επιτυχημένες επιλογές, φοβάμαι πως χρειάζεστε ΠΟΛΥ μεγαλύτερο δείγμα.
Ακόμα ρωτάτε γιατί; Ξαναδιαβάστε τις τέσσερεις προηγούμενες γραμμές. Άλλη μια φορά. Δεν είναι ντροπή, ξαναδιαβάστε, δε σας βλέπει κανείς. Διαβάστε το μέχρι να έχετε εκείνη την “Αχααα” αίσθηση!
Γιατί όμως 460 αγώνες κι όχι 800 που ήταν αρχικά;
Η μέθοδος πρόβλεψης των αποτελεσμάτων και η βελτιστοποίησή της
Την πρώτη φορά που «έτρεξε» ένα ασαφές σύστημα νευρωνικών δικτύων για τους αγώνες της Premier League, το ROI άγγιξε το 7,29%! Ιδού πως κυμάνθηκαν τα κέρδη του:
Ο Δημήτρης μάλλον ήταν ήδη ευχαριστημένος, αφού όπως γράφει σε άλλο μέρος της εργασίας του:
Όσο για το ποιο ποσοστό θεωρείται καλό, δεν υπάρχει σαφής απάντηση. Κατά γενική ομολογία πάντως, στον αθλητικό στοιχηματισμό ένα yield της τάξης του 7% και άνω θεωρείται πάρα πολύ καλό.
Στη συνέχεια έκανε την παραδοχή να αφαιρέσει τα στοιχήματα με απόδοση 1,90 και κάτω. Το ROI εκτοξεύθηκε στο 19,5% και χαρακτήρισε την εκδοχή αυτή του μοντέλου, «ρεαλιστική»!
Βλέπουμε ότι από 800 στοιχήματα, τώρα πλέον στοιχημάτισε σε 427.
Έπειτα δοκίμασε το SVR μοντέλο με το yield αρχικά μόλις να ξεπερνά το μηδέν (2,23%). Εξετάζοντας όμως τη «ρεαλιστική» του εκδοχή με αποδόσεις απαραίτητα άνω του 1,90, το αποτέλεσμα ήταν εξίσου ενθαρρυντικό με το ασαφές σύστημα. Προσέξτε τη διαφορά που έκανε αυτή η παραδοχή στα δύο γραφήματα.
Ανάλογα ήταν τα αποτελέσματα και για τα πρωταθλήματα Ιταλίας, Γαλλίας, Νορβηγίας και Γερμανίας. Ενδεικτικά παρουσιάζεται ο παρακάτω πίνακας. Υπενθυμίζω ότι εξετάστηκαν δύο μοντέλα (αφελές-fuzzy και SVR), στα οποία έγινε επιπλέον η παραδοχή της αποφυγής χαμηλών αποδόσεων (ρεαλιστικά ή real world).
Τέλος, για να γίνει καλύτερα αντιληπτό το πλεονέκτημα του SVR μοντέλου σχετικά με τη διακύμανση του κεφαλαίου, αρκεί κανείς να δει τα γραφήματα για το Νορβηγικό πρωτάθλημα.
Τα SVR γραφήματα έχουν σαφώς μικρότερες εξάρσεις, που σημαίνει ότι απουσιάζουν μεγάλης διάρκειας αρνητικά σερί. Ναι, εκείνες οι «αγαπημένες» σας μέρες που όλα σας πάνε στραβά.
Όμως ο Δημήτρης δεν σταμάτησε εκεί και προχώρησε τη βελτιστοποίηση ακόμα ένα βήμα με τη βοήθεια της… σύνθεσης αποφάσεων ή decision fusion. Και πάλι, θα προσπεράσω τη αγαπητή σε όλους θεωρία (πώς σας καταλαβαίνω, ε;) και θα περάσω στην πράξη.
Είπαμε ότι έχουμε επιλέξει τα καλύτερα στατιστικά για την πρόβλεψη των αγώνων. Για την Premier League ο Δημήτρης επέλεξε τα πρώτα 12 για τα μοντέλα του. Τώρα, χώρισε τα 12 αυτά στατιστικά σε δύο 6άδες και δημιούργησε δύο ξεχωριστά νέα μοντέλα. Έτσι στην ουσία είχε πλέον 3 διαφορετικά μοντέλα νευρωνικών δικτύων για την Premier League. Ένα βασιζόταν σε 12 στατιστικά, ένα άλλο στα πρώτα 6 και ένα ακόμα στα επόμενα 6.
Κατέληξε μετά από αρκετές δοκιμές στο εξής: για να στοιχηματίσουμε στον άσο, θα έπρεπε ΚΑΙ ΤΑ ΤΡΙΑ μοντέλα να προβλέπουν 1 (ομοφωνία). Αν η πρόβλεψη ήταν 1, 1 και Χ, το στοίχημα απορριπτόταν. Για τα άλλα δύο σημεία (Χ και 2), θα ίσχυε η πλειοψηφία, δηλαδή δύο τουλάχιστον μοντέλα να προέβλεπαν το ίδιο σημείο (π.χ. 2,1,2 άρα πρόβλεψη για νίκη της φιλοξενούμενης).
Αυτό είχε ως αποτέλεσμα φυσικά τη δραματική μείωση των «ενεργών» προβλέψεων. Έτσι, από τους 800 αγώνες που θα στοιχηματίζαμε στα 4 προηγούμενα χρόνια, τώρα θα στοιχηματίζαμε λιγότερους από 300. Ταυτόχρονα όμως, η ανταμοιβή μας σε μονάδες ROI/yield θα ήταν σημαντικότατη. Το 7,29% έγινε 11,4% και το 19,5% αναρριχήθηκε στο 26,18% για την αγγλική Premier League!
Την ίδια συμπεριφορά παρουσίασαν και τα SVR μοντέλα. Ας δούμε κλείνοντας τα αποτελέσματα της ιταλικής Serie A. Μας ενδιαφέρει η σύγκριση της «ομοφωνίας» και του απλού αντίστοιχου μοντέλου, όχι της απλής πλειοψηφίας, μιας και διαπιστώθηκε ότι δεν εμφανίζει οφέλη ή πλεονεκτήματα.
Τι θα επέλεγα αν είχα στη διάθεσή μου όλα αυτά τα συστήματα νευρωνικών δικτύων; Πολλοί θα λέγατε το αφελές/fuzzy με ομοφωνία… δαγκωτό! Το 32,66% βγάζει μάτια. Μη βιάζεστε όμως. Θα πρέπει να κάνουμε μια σωστή σύγκριση των μεγεθών σαν καλοί παίκτες του στοιχήματος που είμαστε.
Και σαν τέτοιοι, έχουμε μάθει να κάνουμε υπομονή. Η συνέχεια της ανάλυσης των νευρωνικών δικτύων στο επόμενο και τελευταίο άρθρο της σειράς αυτής, όπου θα κάνουμε μερικές παρατηρήσεις, θα σχολιάσουμε τα αποτελέσματα και θα απαντήσω σε τυχόν ερωτήματα, που ήδη έχουν αρχίσει μα μαζεύονται στα σχόλια. Keep them coming.
Μην ξεχνάμε τέλος, να δώσουμε τα συγχαρητήριά μας τόσο στον επιβλέποντα καθηγητή, Ιωάννη Θεοχάρη, όσο και στον Δημήτρη Ιωάννου, χάρη στους οποίους βρισκόμαστε σήμερα εδώ να διευρύνουμε τους στοιχηματικούς ορίζοντές μας. Εύγε κύριοι!
Αρχική εικόνα μέσω Flickr.
10 Comments
Μπραβο για την σειρα των αρθρων ,που ,οπως πάντα,αποτελουν ενα εξαιρετικο αναγνωσμα .
Οποια και αν ειναι τα μελλοντικά αποτελέσματα οσο αφορα την κερδοφορία,η προσπάθεια του φοιτητη ειναι κατι παραπάνω απο εντυπωσιακη και του αξιζουν συγχαρητήρια ,τόσο για την εργασια του και τον κόπο του ,όσο και για την τολμη του να κάνει πτυχιακή που να ανακατευει μεσα και….στοιχημα στην Ελλαδα.
Μια και δεν γνωριζω τιποτα εντελώς απο νευρωνικά δικτυα ,αν και ημουν ενας απο τους επισκεπτες του σαιτ οταν δοκιμασες το δικο σου συστημα πάνω σε αυτά :) ,οποτε μια ενσταση μονο στα :”Με άλλα λόγια, δεν αξίζει το ρίσκο 100 μονάδων σε ένα αποτέλεσμα με απόδοση π.χ. 1.20 για να έχουμε ένα καθαρό κέρδος μόλις 20 μονάδων. Αυτό συμβαίνει γιατί οι “σίγουρες” νίκες σε ένα άθλημα σαν το ποδόσφαιρο, τελικά δεν είναι και τόσο σίγουρες. Σε περίπτωση που “χάναμε” έναν τέτοιο “σίγουρο” αγώνα (απώλεια 100 μονάδων), θα χρειαζόταν να κερδίσουμε τους επόμενους πέντε “σίγουρους”, μόνο και μόνο για να καλυφθεί αυτή η απώλεια, κάτι το οποίο δεν είναι καθόλου εύκολο, ενώ σε περίπτωση νέου “στραβού” αποτελέσματος, οι απώλειες θα συσσωρεύονται” που αναφερει ο φοιτητης.
Φυσικά και διαφωνω 100% στα παραπάνω και μου κανει εντυπωση πως βγαζει ενα τετοιο συμπέρασμα ,οτι δεν αξιζει π.χ να πονταρει γενικα κάποιος σε μια απόδοση του 1.20.
Οι λόγοι πιστευω εχουν αναλυθει αρκετες φορες μεσα απο το σαιτ και εχουν να κανουν στο αν υπάρχει αξία ή οχι στην απόδοση,ειναι κατι το ανεξαρτητο απο την τιμη της.
Μια δευτερη σκέψη ,που δεν εχει να κανει με την εργασια του φοιτητη,αλλά με ενα σχολιο σου περι απουσιων και στο κατα πόσο συνυπολογίζονται σε κάποιο μαθηματικο μοντέλο: Πιστευω οτι με κάποιο τρόπο συνυπολογίζονται (καποια ratings ισως ? ).
Αποδείξεις δεν υπάρχουν για κατι τέτοιο,αλλά ισχυρότατες ενδειξεις τουλάχιστον όσο αφορα το ποδοσφαιρο.
Αρκει να παρατηρησει κανεις πως οι αποδοσεις απο την στιγμη που ανακοινωθούνε οι 11αδες (συνήθως μια ωρα πριν το μάτς) ,αρχίζουν τα σκαμπανευάσματα ,δείγμα οτι μάλλον παιζει καποιο ρόλο (και ισως αρκετα σημαντικό ) ποιοι αγωνίζονται και ποιοι όχι ,μια και αυτην την κινηση των αποδοσεων την προκαλουν τα περίφημα late money που καθορίζουν και τις τελικες -και αρκετα efficient αποδόσεις.
Σωστή η σκέψη του Shadowcaster. Θα μπορούσε να προστεθεί
σαν input ίσως το ποσοστό μεταβολής της απόδοσης των σημείων στο διάστημα 30
λεπτά πριν την έναρξη ως την έναρξη. Βέβαια για να καταγράψει κανείς τέτοιο
στατιστικό…
Jim αν τα δεδομένα 4 ετών για ένα πρωτάθλημα θεωρούνται αρκετό δείγμα,
σκέφτομαι το εξής. Ο καταπληκτικός φοιτητής και ο καθηγητής του, κατέληξαν στο
ποια δεδομένα-στατιστικά έχουν μεγαλύτερη βαρύτητα για να χρησιμοποιηθούν σε ένα
μοντέλο.
Ο προσωπικός μου άξονας είναι ότι όλα αυτά τα σημαντικά δεδομένα (που λογικά
λίγο πολύ τα γνωρίζουν οι μπουκ) είναι συμπυκνωμένα στις αποδόσεις (έστω μαζί
και με άλλα περιεχόμενα).
Ιδέα: Θα ήταν ενδιαφέρον να χρησιμοποιήσουμε σαν inputs τις αποδόσεις
των τελικών σημείων, του over/under του
goal/no goal και
σαν target να έχουμε αντίστοιχα τις ανάλογες αγορές; Κατά κάποιο τρόπο
ένα τέτοιο μοντέλο θα αξιολογούσε τους ίδιους τους μπουκ ή είναι της φαντασίας
μου;
Δυστυχώς δεν έχω full έκδοση του Alyuda Forecaster για παράδειγμα και η δοκιμαστική έκδοση περιορίζει όσον
αφορά το training.
(κυρίως όσον αφορά την ποσότητα των inputs και όχι το πλήθος αυτών, οπότε δεν
μπορώ να αποδεχτώ ή όχι τα αποτελέσματα ενός τέτοιου training)
Επιστρέφω όμως στο σχόλιο του Shadowcaster, περί του 1,20
κτλ. Ερώτηση: Σαν output το μοντέλο δίνει απλά ένα σημείο
σωστά; 1 ή Χ ή 2. Εννοώ δεν δίνει π.χ ποσοστό ανά σημείο. Δηλαδή δεν εξάγει την
πληροφορία ο άσσος έχει 83% πιθανότητα άρα ποντάρουμε αν μας τον δίνουν στο
1,20.
Αν μας δίνει τέτοιο output τότε
ναι έχει δίκιο που το αναφέρει ο Shadowcaster. Αν όμως απλά πετάει ένα σημείο,
τότε συμφωνώ με την πρακτική να ασχοληθώ με τις υψηλές αποδόσεις (άρα να αφήσω
έξω σημεία απόδοσης <1,90).
Είναι απλό, αν ένα μοντέλο προβλέπει π.χ με 55% επιτυχία
ανεξαρτήτου απόδοσης των μπουκ, όντως δεν θα ασχοληθώ με σημεία σε απόδοση <
1,85.
Είτε του ζητήσουμε πρόβλεψη για 100 σημεία σε απόδοση
1,20 είτε του ζητήσουμε πρόβλεψη για 100 σημεία σε απόδοση 2,00 αυτό θα
προβλέψει με 55% (είναι η θεωρητική μας βάση) Οπότε θα ασχοληθώ με τις καλές
αποδόσεις…
Περιμένω με αγωνία το φινάλε με το 4ο άρθρο.
Αδερφέ, απ όσο καταλαβαίνω το νευρωνικό δε δίνει value, αλλά ένα απλό σημείο. Σου προβλέπει, Μπάγερν-Φράιμπουργκ άσσος. Όταν όμως πας να παίξεις αυτό το σημείο, η απόδοση που θα έχει μπορεί να είναι τέτοια που να μην έχει αξία. Το νευρωνικό άσσο θα τη δώσει τη Μπάγερν είτε ο μπουκ προσφέρει 1.16 είτε 1.35. Οπότε ο φοιτητής γενικά παρατηρώντας τα αποτελέσματα σου λέει “απόφυγε τις χαμηλές αποδόσεις”. Δε σου λέει “οι χαμηλές αποδόσεις δεν έχουν value”, απλά σου λέει με άλλα λόγια “στις χαμηλές αποδόσεις πέφτουν όλοι σα τα κοράκια με αποτέλεσμα να χαμηλώνουν τόσο που στην γενική περίπτωση σου χαλάνε την κερδοφορία”. Το τελευταίο, νομίζω, όποιος ασχολείται με το άθλημα, το ξέρει.
Ερώτηση: ο φοιτητής το δίνει το νευρωνικό; Ή μόνο το παρουσιάζει; Δλδ. μπορούμε να πάμε να το βουτήξουμε στεγνά και να το εφαρμόζουμε στα ματς που έπονται; (σόρι, δεν έχω χρόνο να πάω να τσεκάρω έστω και στα γρήγορα την εργασία).
Τέλος, όπως λέω πάντα, όποιος φτάνει σε αυτό το βάθος στην ενασχόληση με το άθλημα, δε χρειάζεται πλέον νούμερα για να αποδείξει κάτι. Μάλλον κερδίζει, πιθανότατα δε χάνει. Οι εταιρείες δε θέλουν καν τέτοιους παίκτες, πιο πιθανό είναι να σε πετάξουν έξω, παρά να κερδίσεις σοβαρά ποσά από αυτές.
Στέφανε δεν ξέρω κατα πόσο ισχύει οτι “στις χαμηλές αποδόσεις πέφτουν όλοι σαν τα κοράκια” ,καθώς υπάρχει και το φαινόμενο Favourite-longshot bias ,που μάλλον το αντίθετο καταδεικνύει.
Πάντως κατανοητό ότι μάλλον δίνει πληροφορία του στυλ:” η τάδε ομάδα θα νικήσει” και όχι σε μορφή ποσοστού,οποτε ψάχνει και απομονώνει εύρος αποδόσεων που του ταιριάζουν ώστε να είναι θετικός.
Συμπληρώνω ακόμα μία σκέψη όσον αφορά τις ελλείψεις.
Διαβάσαμε στο 2ο άρθρο: «που σημαίνει ότι τα shots on goal είναι σχεδόν το ίδιο σημαντικά
με το βαθμολογικό πίνακα!»
Άρα εάν η φιλοξενούμενη έχει μέσο όρο shots on goal 3,2 και
έχει τραυματία ή τιμωρημένο τον παίχτη που έχει μέσο όρο shots on goal 1,1 τότε
λογικά χαλάει αυτός ο δείκτης. Έτσι δεν είναι; Άρα δεν θα πρέπει να εισαχθεί το
3,2 αλλά σίγουρα κάτι μικρότερο.
Δίκιο έχεις και ακούγεται πολύ λογικό. Απλά τέτοια στοιχεία είναι πολύ δύσκολο να βρεθούνε δωρεάν, επί πληρωμή ίσως. Για να το κάνει κάποιος μόνος του είναι σχεδόν απίθανο.
Το θέμα είναι αν φτιάξεις ένα μοντέλο πάνω σε δεδομένα που δεν λαμβάνουν υπόψιν τους τραυματισμούς ή οποιαδήποτε απουσία, αλλά στα δεδομένα που το τεστάρεις ή στις προβλέψεις για κάποιον αγώνα υπολογίσεις και τις απουσίες, τότε ίσως να μην λειτουργήσει όπως θα έπρεπε.
Επίσης, η επίδραση των παραπάνων στοχείων δεν είναι σίγουρο ότι θα δικαιολογεί τον κόπο που θα κάνεις για να τα βρείς.
Νομίζω οτι δεν είναι τόσο απλά τα πράγματα.
Διαφορετικά αν ποντάραμε π.χ στην Πρεμιερ Λιγκ του 2013-14 ολες τις γηπεδούχους με απόδοση πάνω π.χ απο 3,00 θα έπρεπε να ήμασταν αρκετά κερδισμένοι,καθώς με 47% νίκες των γηπεδούχων ολη την χρονιά ,θα είχαμε υποτίθεται ενα εξαιρετικό value.
Δυστηχώς κάτι τέτοιο δεν συμβαίνει και όποιος το έκανε με π.χ 10ευρα πονταρίσματα σε αποδόσεις bet365 θα έχανε 110 ευρώ ,με ένα yield -2%
Λογικο ακουγεται, αφου 47% ειναι υποθετω η επιβεβαιωση ολων των ασων ανεξαρτητα απο αποδοση. Αν εστιασεις στις αποδοσεις 3.00 και ανω, φανταζομαι οτι δεν θα ειναι 47%. Θα εινσι λιγοτερο.
Εγω ειπα κατι αλλο. Εχω δει 3 σελιδες προβλεψεων στο διαδικτυο που δεν λενε πχ οτι θα ερθει ασσος, αλλα δινουν πιθανοτητες (πχ 1 45% Χ 30% και 2 25%) για καθε αγωνα. Φυσικα δεν ξερω αν οι ανθρωποι εχουν κανει επαληθευση των ποσοστων τους. Λενε ομως σε μια απο αυτες οτι χρησιμοποιουν λεει neural networks.
Αν λοιπον η εργασια που συζηταμε δινει πιθανοτητες (λογικο ακουγεται), τοτε αν βρουμε τον ασο του 45% με αποδοση πχ 2,5, θα πονταρουμε λογικα. Αυτο ειπα. Αν πραγματι του συστημα προβλεπει σωστα τις πιθανοτητες, σε βσθος χρονου και με σωστη επιλογη αποδοσεων κερδιζεις.
Επανέρχομαι μετά από πολύ καιρό, έχοντας μελετήσει το pdf της πτυχιακής. Θεωρώ ότι υπάρχουν κάποια πράγματα τα οποία δε συνάδουν με τους κανόνες της μηχανικής μάθησης. Ξεκινώ : ο συγκεκριμένος φοιτητής επέλεξε κάποιες συγκεκριμένες χρονιές ως train set και κάποια χρόνια ως test set. Όταν χτίζουμε ένα μοντέλο μηχ. μάθησης, δεν επιλέγουμε εμείς αυθαίρετα τα συγκεκριμένα σετ. Επιλέγουμε ένα σετ, έστω 1000 αγώνων 5 ετών, εφαρμόζουμε εκεί αυτά που έχουμε φτιάξει. Η επιλογή είναι τυχαία του train και test set. Εφαρμόζουμε cross validation για να δούμε αν όντως μπορούμε να προβλέψουμε αποτελέσματα έχοντας κέρδη ή όχι. Αν ναι, τότε μπορούμε να συνεχίσουμε και να επιλέξουμε τις επόμενες χρονιές που είναι unseen data, άγνωστες με λίγα λόγια,που θα ποντάρουμε πλέον.
Παρατήρηση 2η : Ενώ έχει επιλέξει ως train set αγώνες από όλο το φάσμα των αποδόσεων, στο τέλος μας λέει ότι το τεστ σετ που δείχνει την απόδοση και τις σωστές προβλέψεις, χρησιμοποιεί μόνο τις μεγάλες αποδόσεις με > 1.90. Επιπλέον, μας λέει ότι σύμφωνα με τη μελέτη του, οι χρησιμότερες μεταβλητές αποδεικνύεται ότι είναι οι αποδόσεις των μπουκ, άρα τα 1, Χ, 2. Αυτά τα δύο δε συνάδουν μεταξύ τους γιατί επηρεάζεις το μοντέλο με αποδόσεις μικρές και κάνεις προβλέψεις σε μεγάλες αποδόσεις. Και διαισθητικά καταλαβαίνουμε, ότι αν το μοντέλο επηρεάζεται από τις αποδόσεις των μπουκ, τότε πολύ λογικά σε τιμές 1 κάτω του 1.70 θα σου προτείνει άσσο και αν η τιμή 2 είναι κάτω του 1.50 θα προτείνει διπλό.
Παρατήρηση 3η : Επιλέγει μόνος του το πεδίο, ανάμεσα στα 1,Χ,2, δηλαδή τις τιμές που ορίζουν την επιλογή σημείων.Αν θυμάμαι καλά, σε κάποιο ήταν 0.36, 0.50 ανάμεσα στα 1Χ και Χ2. Αυτό που κάνει είναι ότι εμφανίζει τα τέλεια αποτελέσματα, σε ένα σετ αγώνων, που απλά δεν του είναι άγνωστο. Αυτό δε λέγεται πρόβλεψη.
Είμαι πρόθυμος να απαντήσω σε όποιον ρωτήσει κάτι. Ασχολούμαι εντατικά με αυτό που λέγεται μηχανική μάθηση τα τελευταία χρόνια και πιστεύω ότι η συγκεκριμένη μελέτη που έγινε, έχει λάθη στον τρόπο προσέγγισης του προβλήματος.
Προσωπικά δεν είμαι έμπειρος γνώστης του αντικειμένου, αν και κάποια στιγμή ασχολήθηκα με την συγκεκριμένη πτυχιακή μέσω Python. Μπόρεσα και έφτασα με το SVR στο 2% και κάτι που αναφέρει για την Premier League.
Εξαρχής πιστεύω πως τα νούμερα είναι πολύ καλά για να είναι αληθινά. Είναι πολύ πιθανό η μετάβαση από ένα μοναδικό μοντέλο σε πολλά να βελτιώνει τις επιδόσεις.
Συμφωνώ με αυτά που αναφέρεις και ιδιαίτερα όσον αφορά το >1.9, νομίζω ότι υπάρχει θέμα μεροληψίας.
Γενικά, πιστεύω ότι μπορεί κάποιος να βελτιώσει τις επιδόσεις του με το machine learning, το πώς και το κατά πόσο δεν το γνωρίζω.