Машинное обучение для скачек

Краткое содержание: в этой статье описываются шаги, которые мы использовали для разработки компьютеризированной модели скачек, которая нацелена на вероятность победы лошади в скачке. Для этого нам нужно было спрогнозировать финишную позицию для каждой лошади в скачке, а также необходимые коэффициенты / дивиденды каждой лошади для виляния.

В этой статье описываются шаги, которые мы использовали для разработки компьютеризированной модели скачек, которая нацелена на вероятность победы лошади в скачке. Для этого нам нужно было спрогнозировать финишную позицию для каждой лошади в скачке, а также требуемые коэффициенты / дивиденды каждой лошади, необходимые для получения прибыльной ставки с течением времени. В следующих разделах этого документа рассматриваются: наши требования к данным; поиск и очистка; выбор модели; особенности инженерии; тестирование производительности; визуализации и развертывания.

Пожалуйста, посмотрите нашу последнюю интерактивную визуализацию Tableau Public здесь.

Хотя наша модель принесла чистую прибыль в размере 262 сингапурских доллара по 160 сделкам на общую сумму 800 сингапурских долларов за период с 1 января по 2019 год, существует ряд проблем, связанных с реализацией, которые могут снизить фактическую отдачу от нашей модели, протестированной на исторических данных. Несмотря на эти проблемы, мы считаем, что наши результаты свидетельствуют о неэффективности рынка и предвзятости в отношении ставок, которые существовали в период нашего исследования.

Можем ли мы разработать прибыльную стратегию ставок для ипподрома?

Система ставок на ипподром «pari-mutuel» имеет больше общего со спекуляциями на финансовых рынках, чем с большинством игр казино. Важно отметить, что игроки на треке не делают ставок против казино в играх с фиксированными коэффициентами, таких как рулетка, а, скорее, они делают ставки против других участников рынка в пуле с одинаковыми шансами. Например, в рулетке на колесе 38 ячеек, и если вы выберете правильную, казино выплатит вам всего 35 к одному. В этой игре чем дольше вы играете, тем больше вы проигрываете, гарантированно.

Однако в системе пари-mutuel выигрыш победителя рассчитывается из чистого пула проигравших ставок. Таким образом, если бы прогностическая модель могла быть построена с большей точностью, чем у широкой публики, мы полагаем, что должна быть возможность разработать прибыльную стратегию ставок на ипподроме. Таким образом, наша цель не в том, чтобы найти наиболее вероятного победителя в каждой гонке, а в том, какая лошадь или лошади предлагают коэффициенты, превышающие их реальные шансы на победу. Это происходит не в каждой гонке, но когда действия других игроков помогают установить шансы, иногда публика выставляет неверную цену.

Эта аналогия также применима к инвестициям на фондовом рынке. Например, если вы считаете, что акция недооценена, и начинаете ее покупать, ваши действия (и другие действия) помогут поднять цену, что, в свою очередь, приведет к снижению будущей предполагаемой прибыли. Этот момент подчеркивает важность ожидаемой стоимости как центральной концепции в любой вероятностной работе. Ожидаемая стоимость формализует идею о том, что ваша рентабельность инвестиций является продуктом вероятностей и различных результатов, а также отдачи от каждого результата. Инвестирование - это, по сути, вероятностное упражнение.

Построение прогнозной модели:

В 1975 году автор Эндрю Бейер произвел революцию в традиционном подходе к анализу скачек в своей книге «Выбор победителей». Ему широко приписывают создание фигуры скорости Бейера, которая является нормализованной мерой того, насколько быстро лошадь бежала в своих прошлых скачках. Поскольку цифры нормализованы по поверхности гусеницы и расстоянию, показатели скорости лошади легче сравнивать и оценивать в пределах, чем необработанное время финиша. Однако процесс разработки надежного словаря показателей скорости для каждой лошади был чрезвычайно трудоемким и утомительным занятием.

Сегодня компьютер может вычислить такие значения скорости в конкретном случае, если можно получить, очистить и сконструировать соответствующие данные. Таким образом, наиболее сложным и трудоемким процессом, с которым мы столкнулись, было проектирование и тестирование выбранных нами функций моделирования. Тип модели, который мы использовали, представляет собой множественную линейную регрессию с более чем 10 000 строк прошлых данных о производительности и более чем дюжиной столбцов сконструированных функций для обучения модели.

Чтобы построить модель со значительной прогностической силой, мы взяли прошлые данные о производительности каждой лошади с веб-сайта Singapore Turf Club. Очистка этих данных и их настройка для разработки функций потребовали значительных усилий из-за выбросов и противоречий в данных. Кроме того, мы выполнили многочисленные тесты и создали ряд новых рядов данных из наших существующих данных, чтобы в конечном итоге спроектировать наши функции и проверить их прогностическую значимость. Окончательный список функций, которые были протестированы и включены в нашу текущую модель:

Цель:

- Длина позади победителя (LBW) (непрерывный)

Инженерные функции:

- Среднее значение скорости относительно других участников гонки (непрерывно)

- Относительное число недавней скорости… (непрерывно)

- Относительная скорость на последних 100 м… (непрерывно)

- Наилучшее относительное значение расстояния и поверхностной скорости… (непрерывно)

- Относительный вес жокея… (непрерывно)

- Оптимальный вес лошади относительно… (непрерывно)

- Относительный рейтинг гандикапа… (непрерывный)

-% побед жокея (непрерывно)

-% выигрыша тренера (постоянно)

-% выигрыша барьера на расстоянии (порядковый номер)

- Смена оборудования (номинальная)

- Количество дней с момента последней гонки (непрерывно)

- Проблема в прошлом прогоне (текст - порядковый номер)

Несмотря на то, что компьютер ускорил темп вычислений, самым сложным и трудоемким этапом процесса создания нашей модели была разработка и сложное кодирование, связанное с созданием некоторых из наших инженерных функций. Например, хотя компьютер может легко отделить самых быстрых и самых медленных лошадей на трассе из исходных данных, эти лошади обычно не соревнуются друг с другом. Вместо этого лошади сгруппированы по различным уровням классов для соревнований, от самых медленных в классе 5 до самых быстрых в классе 1. Кроме того, лошади соревнуются на разных дистанциях, поверхностях и погодных условиях, что делает чрезвычайно сложным сравнение прошлых выступлений лошадей. каждая лошадь в гонке по необработанным данным. Как таковой,ряд подпрограмм необходим для стандартизации и нормализации необработанных данных в разработанные функции, которые мы затем можем использовать для сравнения и ранжирования каждой лошади в предстоящей гонке.

Выбор целей также был областью, в которой мы потратили много времени и усилий на анализ и тестирование различных целей для прогнозирования. Большинство других компьютерных моделей скачек, которые мы рассмотрели, представляют собой некоторую форму модели классификации, где прогнозируемая цель - это что-то вроде «Победа» против «Проигрыша», или будет ли лошадь в «Топ-3» или нет. Самая серьезная проблема, которую мы видим с этими моделями классификации, заключается в том, что они эффективно отбрасывают огромные объемы данных за счет эффективного преобразования 10 строк прошлых данных о производительности, взятых из забега на 10 лошадей, в только 2 строки (`` Победа '' против `` проигрыша ''). '). В результате для обучения модели количество прошлых данных о производительности должно быть значительно больше, чем при использовании модели, в которой прошлые данные о производительности каждой лошади могут использоваться для обучения.

Мы окончательно определились с тем, насколько далеко от победителя нацеливается, по трем причинам. Во-первых, это были легко доступные серии, найденные в нашем наборе данных, с дополнительным бонусом в том, что они уже были в числовой форме с одним десятичным знаком. Во-вторых, после обучения нашей модели на расстоянии от победителя мы также можем нацеливаться на это в наших прогнозах, что дает нам возможность прогнозировать дисперсию на финише, а не только выигрыш / проигрыш. Наконец, мы использовали прогнозы целевой дисперсии, чтобы назначить и скорректировать шансы / дивиденды, необходимые для отражения конкурентоспособности гонки.

Теперь, когда модель построена и обучена, мы протестировали ее производительность. Сначала мы использовали k- кратное тестирование CV, которое разбивает обучающий набор на k меньших наборов, мы использовали 5- кратное тестирование . Неожиданно хорошая производительность заставила нас поверить в то, что в нашей процедуре тестирования была некоторая чрезмерная подгонка или утечка данных. В результате мы решили следовать подходу к тестированию Walk-Forward, обычно используемому для данных временных рядов, чтобы избежать любой возможности утечки информации из будущих гонок в прошлые тренировочные данные. Использование этого подхода потребовало от нас разбить наш набор данных для обучения и тестирования на 13 последовательных шагов, примерно по 2 недели каждый. Это гарантировало отсутствие шансов на возникновение проблем с утечкой данных, которые, как мы подозревали, возникали из-за k.-складывает CV-тестирование.

Прогнозирование нашими моделями длин позади победителя (y-шляпа) дало r² 0,29 и имело среднеквадратичную ошибку длины 5,2. На первый взгляд, эти статистические данные свидетельствуют о низкой предсказательной способности нашей модели. Однако на самом деле нам не следует ожидать создания модели с точным соответствием, учитывая присущую ей случайность возможных результатов. Например, в среднем забеге насчитывается более 10 бегущих лошадей, многие из которых имеют потенциал для победы. Кроме того, результаты показывают большой разброс, составляющий около 20 длин между игроками, занявшими первое и последнее место. Таким образом, нам нужна модель и система ставок, которые могут предоставить достаточно большое количество благоприятных возможностей для ставок, чтобы можно было ожидать достаточной прибыли в долгосрочной перспективе. Учитывая, что шансы / дивиденды устанавливаются публикой, делающей ставки, нам действительно нужна модель, которая может конкурировать с публикой.Интересно, что их r² составляет всего 0,099 от целевого значения, а их среднеквадратичное значение составляет 5,8 длины, и обе из этих характеристик наша модель с комфортом превосходит.

Наконец, мы используем целевые прогнозы наших моделей, чтобы назначить шансы / дивиденды каждой лошади в скачке. Мы делаем это, оценивая вероятность победы каждой лошади в скачке и присваивая ей справедливые шансы (без учета силы), рассчитанные на основе обратной вероятности. После этого упражнения мы завершили нашу задачу по оценке шансов каждой лошади на победу в предстоящей гоночной карточке, а также назначили каждой лошади минимально приемлемые коэффициенты / дивиденды, выше которых должны быть представлены благоприятные возможности для ставок. Тем не менее, мы по-прежнему вносим некоторые изменения в стратегию ставок, описанные ниже, чтобы помочь определить наиболее выгодные возможности для ставок.

Стратегия отыгрыша:

В 1988 году академические исследователи, в том числе Ричард Талер и Уильям Зиемба, опубликовали исследование, в котором подчеркивается значимая предвзятость к ставкам со стороны публики, делающей ставки, - чрезмерная ставка на дальние ставки и недооценка ставок на фаворитов. Их исследование показало, что лошади с короткими шансами (например, фавориты) дают в среднем более высокую отдачу, чем лошади с длинными шансами (например, длинные шансы). Таким образом, вероятность длинного выигрыша на самом деле значительно ниже, чем предполагают их шансы / дивиденды. Некоторые причины, предлагаемые для этого предубеждения, включают одноразовый поиск риска, присущий типичному игроку, делающему ставку на лошадь, который испытывает искушение делать длинные ставки в надежде на крупный счет. Хотя это логично, мы больше заинтересованы в том, чтобы проверить, существует ли эта предвзятость сегодня, поскольку это может помочь настроить нашу стратегию ставок.

Интересно, что эта предвзятость к ставкам все еще четко проявляется в недавних гонках Singapore Turf Club. Например, за последние 2 года наш набор данных показывает, что средний проигрыш для игрока, который поддержал всех фаворитов (заплатив 21 доллар или меньше за ставку 5 долларов), составил бы -7,5%. Однако потери увеличиваются до -17,5% для игрока, который поддерживает все длинные ставки (те, кто платит более 21 доллара). Хотя на основе этой статистики нет простого арбитража прибыли, поскольку оба игрока теряют деньги в долгосрочной перспективе, мы можем начать устанавливать некоторые правила для нашей стратегии отыгрыша, которые могут помочь уменьшить убытки от чрезмерных ставок.

Учитывая вышеупомянутую предвзятость, мы явно не хотим, чтобы наша модель делала ставки на дальние планы. Мы протестировали повышение барьера для выявления благоприятных возможностей для ставок и увидели улучшение показателей прибыли / убытка. Кроме того, мы рассмотрели различные уровни отсечения, чтобы не делать ставок на длинные ставки, даже если они были в выигрыше. В конце концов, мы нашли наилучшие показатели прибыли / убытка по нашей модели, используя отсечку дивидендов в размере 28 сингапурских долларов (шансы 9/2), которых можно было бы избежать в наших потенциальных ставках. Мы протестировали этот уровень отсечения и обнаружили, что на более высоких уровнях он приводит к чрезмерным ставкам с более низкой чистой прибылью, в то время как снижение этого отсечения приводит к уменьшению ставок и упусканию достаточно благоприятных возможностей для снижения чистой прибыли.

На этом этапе мы можем использовать нашу модель для быстрого анализа прошлых данных о производительности, затем спрогнозировать все финишные позиции в каждой из предстоящих гонок и, наконец, назначить минимально приемлемые шансы / дивиденды для каждой бегущей лошади. На этом этапе мы просто будем наблюдать и ждать появления благоприятных возможностей для ставок, которые также подпадают под ограничение нашей стратегии ставок. Такие возможности обычно появляются два или три раза за одну гоночную карту.

Визуализация и развертывание:

Публичная галерея Tableau предлагает впечатляющее программное обеспечение для интерактивной визуализации, которое позволило нам создать и опубликовать нашу собственную панель управления в Интернете для всеобщего просмотра. Наша панель управления включает две страницы, связанные вкладками в верхней части экрана, что позволяет пользователям переключаться между нашими страницами вперед и назад. На первой странице панели инструментов зрители могут найти привлекательную визуализацию прогнозируемых финишных позиций для каждой лошади, которая, по прогнозам, финиширует в пределах трех дистанций от победителя сегодняшних гонок. Кроме того, чуть ниже ожидаемой выигрышной лошади указано ее имя, а также минимальный дивиденд, необходимый для появления возможности делать ставки с преимуществом. Кроме того, эти данные можно найти для всех других претендентов, когда зритель наводит указатель мыши на другое изображение лошади на приборной панели.

На второй странице панели инструментов зрители могут найти данные о прибылях и убытках для наших моделей, в том числе линию накопленной прибыли / убытка в верхней визуализации, в то время как нижняя визуализация показывает дневную прибыль / убыток по ставкам. Кроме того, зритель может получить более подробную информацию о статистике производительности, наведя указатель мыши на изображения в верхней или нижней части визуализации. Наконец, чтобы обновить диаграмму новым прогнозом и прошлыми данными о производительности, достаточно простого нажатия кнопки обновления данных на домашней странице Tableau Public, где мы создали и поддерживаем панель мониторинга. Tableau предлагает возможность продвигать эти интерактивные визуализации на сайты социальных сетей, такие как Twitter и LinkedIn, что мы можем сделать в будущем.

Проблемы с размером банкролла и ставок:

Система скидок, предлагаемая для ставок на скачки из Сингапурских пулов, предусматривает минимальный размер ставки в размере 2 000 сингапурских долларов, необходимый для получения 10% скидки при проигрыше ставок. Важно отметить, что мы предполагаем, что игроки сделают ставки адекватного размера, чтобы иметь право на эту скидку, несмотря на то, что все наши иллюстрации и расчеты показывают цифры, основанные на размере ставки 5 сингапурских долларов. Просто причина, по которой мы показываем все цифры для суммы ставки в 5 сингапурских долларов, заключается в том, что это соглашение об ожидаемых дивидендах и суммах выплат от Singapore Turf Club. Если бы мы повторно запустили нашу прибыль / убыток без скидки, это снизило бы нашу чистую прибыль на 54 доллара, что является значимым уменьшением на 22% по сравнению с нашим расчетом накопленной прибыли / убытка.

Полосы проигрышей - обычное дело в этой игре, причем худшая серия проигрышей, которую мы видели во время нашего тестового периода, - это семь последовательных ставок в середине июня. Если бы мы отыграли минимум, необходимый для скидки, это потребовало бы 14 000 сингапурских долларов из нашего банкролла. Если бы наш первоначальный банкролл составлял всего 10 000 сингапурских долларов, это привело бы к финансовому краху. Фактически мы можем рассчитать вероятность потери всего инвестиционного капитала или потери банкролла ниже минимума для дальнейшей игры или 2000 сингапурских долларов. Используя формулу риска разорения, мы можем рассчитать размер нашего первоначального банкролла, чтобы снизить риск разорения до приемлемого уровня. По нашим оценкам, для нашей стратегии отыгрыша потребуется начальный банкролл в размере около 40 000 сингапурских долларов.

Другой родственной моделью является критерий Келли, который можно использовать для расчета оптимального размера ставки, чтобы максимизировать наш ожидаемый геометрический темп роста благосостояния. Он выражается в процентах от вашего банкролла, и мы рассчитываем, что в среднем мы не должны ставить больше, чем

6% нашего банкролла.

Размещено участником

Чарльз Спенсер

Исследователь квантовых товаров в Invenio Asset Management Pte. ООО

Только что завершив трехмесячный иммерсивный курс по науке о данных с General Assembly, я хотел поделиться своим последним проектом.