Математические ставки. Футбольный сезон-2018/19 в цифрах
Контент проверен и актуален
Содержание
Читайте также:
- Выбрать лучшего букмекера для ставок на спорт
- Прогнозы на сегодня от профессионалов
- Как выбрать букмекерскую контору – советы «РБ»
- Бездепозитные бонусы букмекерских контор
- Как не проиграть первую ставку – 6 советов новичку
АПЛ, Ла Лига, Серия А и Лига 1 успевают сыграть 380 матчей, Бундеслига — всего 306. Игроки в командах сильно отличаются по силе и мастерству друг от друга, так же как и сами клубы, и это несомненно. Гораздо менее очевидно, различаются ли лиги клубов между собой или закон больших чисел их сглаживает.
Посмотрим, как выступили в текущем сезоне клубы большой пятерки. Для статистики используем исключительно ПО с открытым кодом, пакет статистики и язык программирования R. Сперва загружаем данные с Football Data:
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/D1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/E0.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/F1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/I1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/SP1.csv, header=TRUE»)
Считаем количество забитых и пропущенных мячей за весь сезон, вычисляем средние значения:
> sum(FTHG) + sum(FTAG); mean(FTHG) + mean(FTAG)
FTHG — Full time home goal- голы забитые в домашних матчах.
FTHA — Full time home goal- голы забитые в выездных матчах.
Лиги | АПЛ | Бундеслига | Ла Лига | Лига 1 | Серия А |
Голы дома | 596 | 548 | 552 | 559 | 564 |
Голы выезд | 476 | 425 | 431 | 413 | 455 |
Голы всего | 1072 | 973 | 983 | 972 | 1019 |
Среднее дома | 1,568 | 1,791 | 1,453 | 1,471 | 1,484 |
Среднее выезд | 1,253 | 1,389 | 1,134 | 1,087 | 1,197 |
Среднее общее | 2,821 | 3,18 | 2,587 | 2,558 | 2,6816 |
Действительно, между лигами гораздо больше общего, нежели между отдельными клубами. Средняя результативность варьируется в пределах 21% в то время, как показатели результативности клубов могут отличаться в разы, а игроков — в десятки раз.
В полном соответствии со стереотипом Бундеслига оказалась самой результативной в этом сезоне, а вот итальянцы, вопреки непростому наследию катеначчо, идут в ногу с остальными старшими дивизионами.
Ну ладно, все это, конечно, занятно, но эти данные можно было взять с каждого первого футбольного портала или за пять минут набить и посчитать самому в Excel-е. Пора идти вглубь, как советовал герой Леонардо Ди Каприо в фильме «Начало». Как насчет того, чтобы дать статистически точный ответ на вопрос о том, является ли разница общего среднего значения между лигами случайной или закономерной?
Если это все еще немного туманно, сформулируем вопрос немного иначе. Представим, что имеется два закрытых короба с черными и красными шарами и два игрока соревнуются в том, кто вытащит больше красных шаров с 10 попыток. Согласитесь, очень многое зависит от того, одинаково ли содержание двух коробов или соотношения черных и красных шаров отличны. В первом случае выигрыш одно из игроков — дело случая, а во втором — закономерность.
На языке статистики наша задача заключается в том, чтобы определить значительность разницы средних значений μ1 и μ2 двух переменных, имеющих вероятностное распределение Пуассона.
Счетные случайные величины в простейших случаях имеют биномиальное распределение вероятностей, как бывает при бросании монеты или игральных костей. Когда число возможных состояний случайной величины стремится к бесконечности, биномиальное трансформируется в распределение Пуассона. Мы предполагаем, что число забитых в матче голов является случайной величиной, распределенной по Пуассону.
Не будем выискивать под микроскопом разницу между Ла Лигой и Лигой 1, возьмем крайние случаи и посмотрим, можно ли игнорировать разницу между 3.18 немецкой Бундеслиги и 2.558 французской Лиги 1. Если расчеты покажут, что μ1 и μ2 отличаются лишь незначительно, то это будет означать, что голевое преимущество Бундеслиги было всего лишь делом везения, как у игрока из примера с коробом красных и черных шаров.
Так же, как и в случае с теоремой Пифагора, которую Электроник мог доказать 20 разными способами, проверку нашей гипотезы можно сделать разными способами. Кстати, какова она? Согласно традиции, гипотеза H0 обозначает ту, что не плодит избыточных сущностей. То есть предполагает, что ничего такого не обнаружено. В нашем случае H0 будет гипотезой о том, что μ1 и μ2 равны.
Проще всего построить доверительный интервал среднего значения, воспользовавшись для этого t распределением Стьюдента.
Находим значение переменных и параметров: n,σ и t.
> n <- length(ger19$FTHG+ger19$FTAG); print(n)
> [1] 306
> σ_ger <- sd(ger19$FTHG) + sd(ger19$FTAG); print(σ_ger)
> [1] 2.7541
> print(«считаем t статистику»)
> [1] «считаем t статистику»
> alpha <- .05
> qt(1-alpha/2,n-1)
> [1] 1.96778
И подставляем их в выражение критического интервала.
> μ_ger — t*σ_ger/sqrt(n)
> [1] 2.869933
> μ_ger + t*σ_ger/sqrt(n)
> [1] 3.489544
Так и получается, что с 95% уверенностью можно утверждать, что общее среднее забитых голов в Бундеслиги не могло быть меньше 2,87. В минувшем сезоне немецкие клубы высшей лиги действительно превзошли не только Лигу 1, но также остальные лиги большой пятерки, и везение тут ни при чем.
В следующем выпуске постараемся погрузиться глубже, проверить гипотезу H0 более недвусмысленно и узнать, насколько хорошо ложатся результаты футбольных матчей на модель Пуассона.
Спасибо за Вашу помощь!
Мы ценим Вашу бдительность!
Уведомления о новых публикациях этого автора будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Уведомления о новых прогнозах этого эксперта будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Это значит что вы больше не будете получать уведомления о новых публикациях этого автора на ваш электронный адрес.
Это значит что вы больше не будете получать уведомления о новых прогнозах этого эксперта на ваш электронный адрес.