stasianoобновлен
Введение в новую метрику, которая скоро заменит xG. Знакомьтесь, xT (Expected Threat)!
Пока мы все рисовали стрелочки на картинках и гордо рассказывали про xG и другие похожие вещи, один сумасшедший индус из Фейсбука ( ну да, где бы он еще мог работать?) создал метрику xT (Expected Threat), которая позволяет насквозь видеть сценарии продвижения мяча, самые популярные решения игроков, любимые зоны голевых моментов и еще много другого, просто кликая на любой квадратик на футбольном поле. Внизу будет ссылка на оригинальную статью, но для людей, не владеющих английским языком, я с удовольствием публикую свой перевод материала. Погнали! Похвала там, где похвала заслужена... Чтобы мотивировать весь оставшийся материал, автор рассматривает этот гол «Арсенала», забитый в матче, который закончился со счетом 3-1 в пользу канониров: После нескольких замысловатых передач на правом фланге Месут Озил вскрывает оборону «Бернли» разрезающей передачей на Сеада Колашинаца, чья своевременная откидка мяча назад нашла Обамеянга, дав ему возможность забить гол. Понятное дело, что на бумаге голевая передача для этого гола была записана на Сеада Колашинаца. Но, как аналитик, Вы могли бы задать (и правильно) вопрос о вкладе Озила в это взятие ворот. Где же та метрика, которая могла бы пропорционально разделить вклады Озила и Колашинаца в этот гол? Существующие подходы Существует несколько количественных подходов, которые Вы могли бы использовать для решения этой задачи: - Вы можете посмотреть на ассисты, но тогда вклады таких людей, как Озил, остались бы незамеченными. - Вы можете посмотреть на xGChain, но тогда xG финального удара (в данном случае = 0.13) будет поровну разделен между каждым игроком, участвующим в данной комбинации. Колашинац, Озил Обамеянг, Ляказет, Мейтленд-Найлз были бы здесь вознаграждены одинаковым количеством xGChain, что не отображает реального вклада. - Вы можете посмотреть на разницу в xG, вызванную каждым отдельным действием в комбинации. Это уже лучше, но не всегда именно проникающий пас влечет за собой создание хорошего голевого момента. Например: передача Озила вскрывает оборону, но она все еще не вывела Колашинаца на отличную позицию для взятия ворот. Передача Озила скорее вывела Колашинаца на позицию, с которой он, в свою очередь, может создать хороший голевой момент. Можем ли мы справиться лучше? На изъянах существующих метрик мы бы хотели получить подход, который может: 1. Вознаграждать индивидуальные действия игроков (передачи, обводки) в комбинационной игре. 2. Оперировать данными на уровне событий. 3. Вознаграждать действия независимо от финального результата владения мячом (например: вознаграждение Озила не должно зависеть от реализации Обамеянга) 4. Вознаграждать продвижение мяча не только в высокие по xG позиции, но и в «угрожающие» позиции, которое потом может повлечь за собой попадание мяча в те самые высокие по xG позиции с высокой вероятностью взятия ворот. Конечно же, нет универсального решения, которое здесь точно было бы «правильным». Как всегда, существует компромисс между сложностью моделирования и точностью. Цель этого материала, однако, предоставить вам один из возможных подходов и пробежаться по тому, как он может быть имплементирован для анализа комбинационной игры. Давайте еще раз пробежимся по требованиям, на этот раз, предлагая и уточняя решение по мере продвижения: 1. Вознаграждать индивидуальные действия: наша модель должна начислять очки за каждое действие игрока (передача или обводка), в зависимости от того, какой вклад в комбинационную игру оно внесло. 2. Данные на уровне событий: у нас нет доступа к любым учетным данным игроков; у нас есть лишь список последовательных событий вместе с базовыми атрибутами этих событий, такими как: игрок во владении, проведенное время на поле, начальное местоположение, конечное местоположение итд. 3. Независимость от финального результата: каждое действие должно быть оценено в изоляции, независимо от того, что произошло во владении до и после него. По мере поступления соответствующих вводных сигналов, у нас фактически остаются только начальные и конечные точки действий. Как на основе этого мы можем начислять балы? Мы можем построить подход «по разнице в xG» и задавать значение каждой локации на футбольном поле. Таким образом, если конкретное действие влечет за собой продвижения мяча из точки А в точку Б, балы за действие просто будут значением, равным «Б минус А». 4. Определять «угрожающие позиции»: во время задавания значение каждой локации на поле мы должны смотреть за рамки xG. Значение, генерируемое xG, подразумевает, что следующим нашим действием станет удар. На поле все еще много зон, с которых трудно забить напрямую, но с которых можно продвинуть мяч локации с более высоким уровнем xG. Когда мы задаем значения действиям, нам нужно определять эти угрожающие позиции. Другими словами, xG нам дает только одно действие (удар) с одной позиции. В свою очередь, чтобы оценить угрозу, мы должны оценить возможность соединения в цепочку нескольких действий. По итогам этих предположений моделирования нашу проблему теперь легче переварить: имея хранилище данных на уровне событий, можем ли мы оценить угрозу каждой зоны на футбольном поле? Владея мячом... Есть один способ просмотра комбинационной игры и он состоит в следующем: когда команда владеет мячом, они могут либо ударить (и забить гол с определенной вероятностью), либо переместить мяч в другую зону с помощью передачи/дриблинга. Это продолжается до момента потери мяча или забитого гола. Если мы будем работать с этой упрощенной моделью игры, как будут выглядеть данные? По каждой позиции нам нужно знать: как часто футболисты бьют (и как часто забивают), как часто они передвигают мяч и куда они его передвигают. Следующая схема суммирует данные за все игры АПЛ в сезоне 2017-18. (извините, не стал заморачиваться с тем, как вставить эту штуку в блог на Спортсе. Записал на видео, но не поленитесь и зайдите на оригинальном сайте поклацайте ее, она крутая) Поигравшись с этой таблицей, Вы начнете замечать, что каждая зона (x, y) имеет определенные аттрибуты: - Вероятность продвижения m (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает продвижение мяча в качестве следующего действия? - Вероятность удара s (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает удар в качестве следующего действия? В нашей вселенной по умолчанию у него есть только два варианта: продвинуть мяча (пас/дриблинг) и пробить по воротам. Получается, что m(x,y) + s(x,y) = 100% - Матрица продвижения t(x,y): в этом случае мы говорим о том, куда и с какой вероятностью футболисты перемещаются и зоны (x,y). На схеме сверху эти зоны обозначены разными оттенками зеленого цвета (чем зеленее цвет, тем чаще эта зона становится следующим пунктом назначения мяча). - Вероятность гола g(x,y): здесь уже о том, куда игроки бьют с зоны (х,у), какая вероятность того, что удар закончится голом. Стоит подметить, что это лишь очень простая имплементация xG. Взглянуть за пределы шахматной доски Теперь, когда у нас уже есть система вычисления, давайте резюмировать чего мы здесь пытаемся достичь. Проблема с моделями, полностью ориентированными на удары, типа xG, в том, что когда дело доходит до комбинационной игры, много значимых действий сразу же не ведут к хорошим голевым возможностям...Но они скорее ведут к хорошим ситуациям для взятия ворот несколько действий спустя. Эту теорию очень красноречиво выдвинул Ден Сервон ( https://www.lukebornn.com/papers/cervone_ssac_2014.pdf ) в контексте баскетбольной аналитики (хотя его цитаты очень даже применимы к футболу). Так как же нам взглянуть за пределы шахматной доски, имея данные, которым мы здесь оперируем? Как нам задавать зонам такие значения, которые бы не отображали сиюминутную забивную значимость, а будущее вознаграждение, которое они могут дать (путем передвижения мяча в другие зоны)? Ключевой момент здесь в том, что, владея мячом в какой-то зоне (х,у), у тебя есть выбор: ты можешь ударить и забить с определенной вероятностью, либо ты можешь передвинуть мяч в другую локацию. Извлечение xT Здесь я решил не заниматься переводом и оставить этот раздел самым большим статистическим гикам. В нем автор посвятил очень много текста объяснению своих алгоритмов и раздел получился очень специфическим. Пропустим его. Визуализация xT Теперь, когда у нас уже есть формула нахождения xT по всему полю, как будет выглядеть наш результат? Эта визуализация показывает нам как 2D карту, так и 3D модель, построенные с использованием всех данных сезона 2017-18. Самое крутое то, что просчитать вероятность гола можно на разное количество итераций вперед, просто двигая слайдер (от одной до пяти). Что нужно закрепить: - ожидаемые угрозы (xT) = 0.413: когда команда владеет мячом в выделенной зоне, вероятность, что они забьют гол за следующие пять итераций составляет 41.3%; - на нулевой итерации карта плоская, так как итерация=0 является отправной точкой для дальнейших вычислений; - на итерации=1 у нас уже есть просчитанная модель; - при каждой следующей итерации мы видим заполнение карты xT все дальше и дальше от выбранной точки (как мы уже посмотрели, каждая итерация позволяет просчитаться еще одно действий в командной игре); - показатели xT начинают сливаться воедино после 4-5 итерации. Применение xT Немного отдалившись от всех этих вычислений, еще раз подчеркнем, что смысл всей это метрики в том, чтобы количественно оценить угрозу, которую несет любой клаптик поля. Теперь, когда у нас уже есть xT, мы можем оценить индивидуальные вклады игроков в комбинационную игру путем высчитывания разницы xT между начальными и конечным локациями. Другими словами, мы говорим, что любое действие, которое перемещает мяч из точки (х,у) в точку (z,w), имеет значение хТ(z,w) - хТ(х,у). Еще раз, есть одно очень хорошее обозначение для этого всего: стоимость действия равняется % изменения в шансах команды забить за следующие пять итераций из-за этого действия (с учетом того, что мы сейчас говорим о пяти итерациях, мы используем понятие «следующие пять действий»). Теперь давайте попробуем решить проблему оценки действий Озила и Колашинаца, но уже используя формулу xT: 1. Пас Озила перемещает мяч из хТ=0.077 в хТ=0.158. Пас Озила делает разницу хТ=0.081. 2. Пас Колашинаца перемещает мяч из хТ=0.158 в хТ=0.171. Пас Колашинаца делает разницу хТ=0.013. Смотря на эти цифры, мы видим, что Озил наиграл на 0.81/(0.81+0.013)=86% в разнице хТ, а Колашинац, несмотря на свой ассист, всего на 14%. Лидеры по хТ В качестве проверки своего здравомыслия автор предлагает посмотреть на список лидеров создания хТ в сезоне АПЛ 2017/18. Следующая таблица показывает топ 15 игроков лиги, чьи действия в совокупности принесли самую большую разницу по метрике хТ. Обратите внимание, что список упорядочен не на основе общего количества принятых решений, а на грубой суме хТ. Автор это сделал преднамеренно, чтобы покрыть не только игроков, которые умеют обострять, но и тех, кто делает это постоянно и в больших объемах. Нахождение Холебаса на третьем месте может вызвать удивление, но левый защитник «Уотфорда» в том сезоне зарекомендовал себя как самый стабильный и опасный созидатель команды. Кроме простого начисления очков в командной игре, система хТ служит пристанищем и для других применений. Например, на данный момент мы только посмотрели хТ результаты суммарно по всем командам АПЛ сезона 2017-18, но прошли мимо конкретных данных по командам. Нет никаких сомнений, что команды по-разному ведут себя во время владений, отдают приоритет разным участкам поля и идут разными путями к голам, в зависимости от своих сильных сторон. Что происходит, когда вместо сбрасывания всей статистики в кучу мы просчитаем хТ по командам? Визуализация хТ по командам С большой долей уверенности можно сказать о том, что мы видим очень много разнообразия в стилях команд. В добавок к разнице в изгибах выгибов сеток команд, обратите внимание на разницу в высоте. Например, «МанСити» и «Шпоры» имеют приблизительно одинаковые изгибы (что означает, что у них похожая ценность продвижения мяча в тех же зонах), но магнитуда хТ очень рознится. Это означает, что в одних и тех же зонах игроки «МанСити» на порядок опаснее своих лондонских конкурентов (благодаря более высокой реализации). При том, что на эти командные карты хТ очень интересно смотреть, сами по себе они не полностью применимы. Учитывая вышесказанное, фундаментальные данные мощные потому, что они могут дать нам командно-ориентированный взгляд на то, откуда возникает опасность во время комбинационной игры. Например, есть один очень полезный вопрос, на который нужно искать ответ во время предматчевых разборов соперников: с какого участка поля наши соперники создают больше всего опасности? Чтобы на это ответить, мы можем использовать хТ карту нашего оппонента и оценить все действия из сыгранных ими матчей. Другими словами, на каждой ячейке схемы мы можем посмотреть на действия, который там зародились и на суму хТ этих действий. Это даст нам по-зонное суммарное значение, которое подчеркнет уровень опасности, созданной с разных участков поля. В добавок, подсвечивание самых популярных конечных зон продвижения мяча даст нам понимание любимых коридоров движения мяча наших соперников. Чтобы сделать все это еще более полезным для тактических установок команд, нам хотелось бы узнать кто те самые игроки, которые ответственны за создание угрозы через коридоры. Кто создает опасность и откуда? Это видео работы очередного алгоритма попытается ответить на наш вопрос максимально точно. Подсвеченные зоны показывают откуда чаще всего создается хТ. Ховеры/клики на отдельные участки покажут опасные маршруты мяча, которые там рождаются и самых задействованных игроков. (зайдите на сайт автора и прощупайте все своими руками) Предстоящая работа Продемонстрировано всего несколько вариантов применения хТ и нам предстоит открыть еще много новых. Присущая хТ возможность покрывать поведение команд «на мяче» влечет за собой много новых перспективных направлений. Взгляд на то, как хТ корректируется по ходу продвижения атаки может, например, помочь нам идентифицировать и анализировать такие схемы движения, как контратаки. На уровне игрока мы можем оценить индивидуальный уровень принятия решений по отношению к тому, как его команда играет в целом: «делает ли этот футболист ценные для хТ его команды выборы передач?». А не стоит ли ему выбирать удары вместо обводок в конкретных зонах? Вероятнее всего, еще больше интересного для себя смогут найти футбольные скауты: «можем ли мы сказать, что этот игрок вольется в нашу систему? Есть ли у него история принятия тех решений, которые будут полезными для хТ нашей команды?» Поддержите автора! Если у Вас на уме есть какие-то направления, которые Вы бы хотели изучить вместе с автором, Вы можете с ним связаться в Твиттере @karun1710 или напрямую по электронной почте karun.singh17@gmail.com Ссылка на оригинал: https://karun.in/blog/expected-threat.html Подписывайтесь, чтобы не пропустить следующий эпизод ____________________________________________________________ Телеграм: https://t.me/joinchat/AAAAAEHW5BOJk7UUVfCEsA Фейсбук: https://www.facebook.com/stanislav.honcharenko.73 Твиттер: https://twitter.com/Stasiano1
stasianoобновлен
Введение в новую метрику, которая скоро заменит xG. Знакомьтесь, xT (Expected Threat)!
Пока мы все рисовали стрелочки на картинках и гордо рассказывали про xG и другие похожие вещи, один сумасшедший индус из Фейсбука ( ну да, где бы он еще мог работать?) создал метрику xT (Expected Threat), которая позволяет насквозь видеть сценарии продвижения мяча, самые популярные решения игроков, любимые зоны голевых моментов и еще много другого, просто кликая на любой квадратик на футбольном поле. Внизу будет ссылка на оригинальную статью, но для людей, не владеющих английским языком, я с удовольствием публикую свой перевод материала. Погнали! Похвала там, где похвала заслужена... Чтобы мотивировать весь оставшийся материал, автор рассматривает этот гол «Арсенала», забитый в матче, который закончился со счетом 3-1 в пользу канониров: После нескольких замысловатых передач на правом фланге Месут Озил вскрывает оборону «Бернли» разрезающей передачей на Сеада Колашинаца, чья своевременная откидка мяча назад нашла Обамеянга, дав ему возможность забить гол. Понятное дело, что на бумаге голевая передача для этого гола была записана на Сеада Колашинаца. Но, как аналитик, Вы могли бы задать (и правильно) вопрос о вкладе Озила в это взятие ворот. Где же та метрика, которая могла бы пропорционально разделить вклады Озила и Колашинаца в этот гол? Существующие подходы Существует несколько количественных подходов, которые Вы могли бы использовать для решения этой задачи: - Вы можете посмотреть на ассисты, но тогда вклады таких людей, как Озил, остались бы незамеченными. - Вы можете посмотреть на xGChain, но тогда xG финального удара (в данном случае = 0.13) будет поровну разделен между каждым игроком, участвующим в данной комбинации. Колашинац, Озил Обамеянг, Ляказет, Мейтленд-Найлз были бы здесь вознаграждены одинаковым количеством xGChain, что не отображает реального вклада. - Вы можете посмотреть на разницу в xG, вызванную каждым отдельным действием в комбинации. Это уже лучше, но не всегда именно проникающий пас влечет за собой создание хорошего голевого момента. Например: передача Озила вскрывает оборону, но она все еще не вывела Колашинаца на отличную позицию для взятия ворот. Передача Озила скорее вывела Колашинаца на позицию, с которой он, в свою очередь, может создать хороший голевой момент. Можем ли мы справиться лучше? На изъянах существующих метрик мы бы хотели получить подход, который может: 1. Вознаграждать индивидуальные действия игроков (передачи, обводки) в комбинационной игре. 2. Оперировать данными на уровне событий. 3. Вознаграждать действия независимо от финального результата владения мячом (например: вознаграждение Озила не должно зависеть от реализации Обамеянга) 4. Вознаграждать продвижение мяча не только в высокие по xG позиции, но и в «угрожающие» позиции, которое потом может повлечь за собой попадание мяча в те самые высокие по xG позиции с высокой вероятностью взятия ворот. Конечно же, нет универсального решения, которое здесь точно было бы «правильным». Как всегда, существует компромисс между сложностью моделирования и точностью. Цель этого материала, однако, предоставить вам один из возможных подходов и пробежаться по тому, как он может быть имплементирован для анализа комбинационной игры. Давайте еще раз пробежимся по требованиям, на этот раз, предлагая и уточняя решение по мере продвижения: 1. Вознаграждать индивидуальные действия: наша модель должна начислять очки за каждое действие игрока (передача или обводка), в зависимости от того, какой вклад в комбинационную игру оно внесло. 2. Данные на уровне событий: у нас нет доступа к любым учетным данным игроков; у нас есть лишь список последовательных событий вместе с базовыми атрибутами этих событий, такими как: игрок во владении, проведенное время на поле, начальное местоположение, конечное местоположение итд. 3. Независимость от финального результата: каждое действие должно быть оценено в изоляции, независимо от того, что произошло во владении до и после него. По мере поступления соответствующих вводных сигналов, у нас фактически остаются только начальные и конечные точки действий. Как на основе этого мы можем начислять балы? Мы можем построить подход «по разнице в xG» и задавать значение каждой локации на футбольном поле. Таким образом, если конкретное действие влечет за собой продвижения мяча из точки А в точку Б, балы за действие просто будут значением, равным «Б минус А». 4. Определять «угрожающие позиции»: во время задавания значение каждой локации на поле мы должны смотреть за рамки xG. Значение, генерируемое xG, подразумевает, что следующим нашим действием станет удар. На поле все еще много зон, с которых трудно забить напрямую, но с которых можно продвинуть мяч локации с более высоким уровнем xG. Когда мы задаем значения действиям, нам нужно определять эти угрожающие позиции. Другими словами, xG нам дает только одно действие (удар) с одной позиции. В свою очередь, чтобы оценить угрозу, мы должны оценить возможность соединения в цепочку нескольких действий. По итогам этих предположений моделирования нашу проблему теперь легче переварить: имея хранилище данных на уровне событий, можем ли мы оценить угрозу каждой зоны на футбольном поле? Владея мячом... Есть один способ просмотра комбинационной игры и он состоит в следующем: когда команда владеет мячом, они могут либо ударить (и забить гол с определенной вероятностью), либо переместить мяч в другую зону с помощью передачи/дриблинга. Это продолжается до момента потери мяча или забитого гола. Если мы будем работать с этой упрощенной моделью игры, как будут выглядеть данные? По каждой позиции нам нужно знать: как часто футболисты бьют (и как часто забивают), как часто они передвигают мяч и куда они его передвигают. Следующая схема суммирует данные за все игры АПЛ в сезоне 2017-18. (извините, не стал заморачиваться с тем, как вставить эту штуку в блог на Спортсе. Записал на видео, но не поленитесь и зайдите на оригинальном сайте поклацайте ее, она крутая) Поигравшись с этой таблицей, Вы начнете замечать, что каждая зона (x, y) имеет определенные аттрибуты: - Вероятность продвижения m (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает продвижение мяча в качестве следующего действия? - Вероятность удара s (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает удар в качестве следующего действия? В нашей вселенной по умолчанию у него есть только два варианта: продвинуть мяча (пас/дриблинг) и пробить по воротам. Получается, что m(x,y) + s(x,y) = 100% - Матрица продвижения t(x,y): в этом случае мы говорим о том, куда и с какой вероятностью футболисты перемещаются и зоны (x,y). На схеме сверху эти зоны обозначены разными оттенками зеленого цвета (чем зеленее цвет, тем чаще эта зона становится следующим пунктом назначения мяча). - Вероятность гола g(x,y): здесь уже о том, куда игроки бьют с зоны (х,у), какая вероятность того, что удар закончится голом. Стоит подметить, что это лишь очень простая имплементация xG. Взглянуть за пределы шахматной доски Теперь, когда у нас уже есть система вычисления, давайте резюмировать чего мы здесь пытаемся достичь. Проблема с моделями, полностью ориентированными на удары, типа xG, в том, что когда дело доходит до комбинационной игры, много значимых действий сразу же не ведут к хорошим голевым возможностям...Но они скорее ведут к хорошим ситуациям для взятия ворот несколько действий спустя. Эту теорию очень красноречиво выдвинул Ден Сервон ( https://www.lukebornn.com/papers/cervone_ssac_2014.pdf ) в контексте баскетбольной аналитики (хотя его цитаты очень даже применимы к футболу). Так как же нам взглянуть за пределы шахматной доски, имея данные, которым мы здесь оперируем? Как нам задавать зонам такие значения, которые бы не отображали сиюминутную забивную значимость, а будущее вознаграждение, которое они могут дать (путем передвижения мяча в другие зоны)? Ключевой момент здесь в том, что, владея мячом в какой-то зоне (х,у), у тебя есть выбор: ты можешь ударить и забить с определенной вероятностью, либо ты можешь передвинуть мяч в другую локацию. Извлечение xT Здесь я решил не заниматься переводом и оставить этот раздел самым большим статистическим гикам. В нем автор посвятил очень много текста объяснению своих алгоритмов и раздел получился очень специфическим. Пропустим его. Визуализация xT Теперь, когда у нас уже есть формула нахождения xT по всему полю, как будет выглядеть наш результат? Эта визуализация показывает нам как 2D карту, так и 3D модель, построенные с использованием всех данных сезона 2017-18. Самое крутое то, что просчитать вероятность гола можно на разное количество итераций вперед, просто двигая слайдер (от одной до пяти). Что нужно закрепить: - ожидаемые угрозы (xT) = 0.413: когда команда владеет мячом в выделенной зоне, вероятность, что они забьют гол за следующие пять итераций составляет 41.3%; - на нулевой итерации карта плоская, так как итерация=0 является отправной точкой для дальнейших вычислений; - на итерации=1 у нас уже есть просчитанная модель; - при каждой следующей итерации мы видим заполнение карты xT все дальше и дальше от выбранной точки (как мы уже посмотрели, каждая итерация позволяет просчитаться еще одно действий в командной игре); - показатели xT начинают сливаться воедино после 4-5 итерации. Применение xT Немного отдалившись от всех этих вычислений, еще раз подчеркнем, что смысл всей это метрики в том, чтобы количественно оценить угрозу, которую несет любой клаптик поля. Теперь, когда у нас уже есть xT, мы можем оценить индивидуальные вклады игроков в комбинационную игру путем высчитывания разницы xT между начальными и конечным локациями. Другими словами, мы говорим, что любое действие, которое перемещает мяч из точки (х,у) в точку (z,w), имеет значение хТ(z,w) - хТ(х,у). Еще раз, есть одно очень хорошее обозначение для этого всего: стоимость действия равняется % изменения в шансах команды забить за следующие пять итераций из-за этого действия (с учетом того, что мы сейчас говорим о пяти итерациях, мы используем понятие «следующие пять действий»). Теперь давайте попробуем решить проблему оценки действий Озила и Колашинаца, но уже используя формулу xT: 1. Пас Озила перемещает мяч из хТ=0.077 в хТ=0.158. Пас Озила делает разницу хТ=0.081. 2. Пас Колашинаца перемещает мяч из хТ=0.158 в хТ=0.171. Пас Колашинаца делает разницу хТ=0.013. Смотря на эти цифры, мы видим, что Озил наиграл на 0.81/(0.81+0.013)=86% в разнице хТ, а Колашинац, несмотря на свой ассист, всего на 14%. Лидеры по хТ В качестве проверки своего здравомыслия автор предлагает посмотреть на список лидеров создания хТ в сезоне АПЛ 2017/18. Следующая таблица показывает топ 15 игроков лиги, чьи действия в совокупности принесли самую большую разницу по метрике хТ. Обратите внимание, что список упорядочен не на основе общего количества принятых решений, а на грубой суме хТ. Автор это сделал преднамеренно, чтобы покрыть не только игроков, которые умеют обострять, но и тех, кто делает это постоянно и в больших объемах. Нахождение Холебаса на третьем месте может вызвать удивление, но левый защитник «Уотфорда» в том сезоне зарекомендовал себя как самый стабильный и опасный созидатель команды. Кроме простого начисления очков в командной игре, система хТ служит пристанищем и для других применений. Например, на данный момент мы только посмотрели хТ результаты суммарно по всем командам АПЛ сезона 2017-18, но прошли мимо конкретных данных по командам. Нет никаких сомнений, что команды по-разному ведут себя во время владений, отдают приоритет разным участкам поля и идут разными путями к голам, в зависимости от своих сильных сторон. Что происходит, когда вместо сбрасывания всей статистики в кучу мы просчитаем хТ по командам? Визуализация хТ по командам С большой долей уверенности можно сказать о том, что мы видим очень много разнообразия в стилях команд. В добавок к разнице в изгибах выгибов сеток команд, обратите внимание на разницу в высоте. Например, «МанСити» и «Шпоры» имеют приблизительно одинаковые изгибы (что означает, что у них похожая ценность продвижения мяча в тех же зонах), но магнитуда хТ очень рознится. Это означает, что в одних и тех же зонах игроки «МанСити» на порядок опаснее своих лондонских конкурентов (благодаря более высокой реализации). При том, что на эти командные карты хТ очень интересно смотреть, сами по себе они не полностью применимы. Учитывая вышесказанное, фундаментальные данные мощные потому, что они могут дать нам командно-ориентированный взгляд на то, откуда возникает опасность во время комбинационной игры. Например, есть один очень полезный вопрос, на который нужно искать ответ во время предматчевых разборов соперников: с какого участка поля наши соперники создают больше всего опасности? Чтобы на это ответить, мы можем использовать хТ карту нашего оппонента и оценить все действия из сыгранных ими матчей. Другими словами, на каждой ячейке схемы мы можем посмотреть на действия, который там зародились и на суму хТ этих действий. Это даст нам по-зонное суммарное значение, которое подчеркнет уровень опасности, созданной с разных участков поля. В добавок, подсвечивание самых популярных конечных зон продвижения мяча даст нам понимание любимых коридоров движения мяча наших соперников. Чтобы сделать все это еще более полезным для тактических установок команд, нам хотелось бы узнать кто те самые игроки, которые ответственны за создание угрозы через коридоры. Кто создает опасность и откуда? Это видео работы очередного алгоритма попытается ответить на наш вопрос максимально точно. Подсвеченные зоны показывают откуда чаще всего создается хТ. Ховеры/клики на отдельные участки покажут опасные маршруты мяча, которые там рождаются и самых задействованных игроков. (зайдите на сайт автора и прощупайте все своими руками) Предстоящая работа Продемонстрировано всего несколько вариантов применения хТ и нам предстоит открыть еще много новых. Присущая хТ возможность покрывать поведение команд «на мяче» влечет за собой много новых перспективных направлений. Взгляд на то, как хТ корректируется по ходу продвижения атаки может, например, помочь нам идентифицировать и анализировать такие схемы движения, как контратаки. На уровне игрока мы можем оценить индивидуальный уровень принятия решений по отношению к тому, как его команда играет в целом: «делает ли этот футболист ценные для хТ его команды выборы передач?». А не стоит ли ему выбирать удары вместо обводок в конкретных зонах? Вероятнее всего, еще больше интересного для себя смогут найти футбольные скауты: «можем ли мы сказать, что этот игрок вольется в нашу систему? Есть ли у него история принятия тех решений, которые будут полезными для хТ нашей команды?» Поддержите автора! Если у Вас на уме есть какие-то направления, которые Вы бы хотели изучить вместе с автором, Вы можете с ним связаться в Твиттере @karun1710 или напрямую по электронной почте karun.singh17@gmail.com Ссылка на оригинал: https://karun.in/blog/expected-threat.html Подписывайтесь, чтобы не пропустить следующий эпизод ____________________________________________________________ Телеграм: https://t.me/joinchat/AAAAAEHW5BOJk7UUVfCEsA Фейсбук: https://www.facebook.com/stanislav.honcharenko.73 Твиттер: https://twitter.com/Stasiano1
stasianoобновлен
Введение в новую метрику, которая скоро заменит xG. Знакомьтесь, xT (Expected Threat)!
Пока мы все рисовали стрелочки на картинках и гордо рассказывали про xG и другие похожие вещи, один сумасшедший индус из Фейсбука ( ну да, где бы он еще мог работать?) создал метрику xT (Expected Threat), которая позволяет насквозь видеть сценарии продвижения мяча, самые популярные решения игроков, любимые зоны голевых моментов и еще много другого, просто кликая на любой квадратик на футбольном поле. Внизу будет ссылка на оригинальную статью, но для людей, не владеющих английским языком, я с удовольствием публикую свой перевод материала. Погнали! Похвала там, где похвала заслужена... Чтобы мотивировать весь оставшийся материал, автор рассматривает этот гол «Арсенала», забитый в матче, который закончился со счетом 3-1 в пользу канониров: После нескольких замысловатых передач на правом фланге Месут Озил вскрывает оборону «Бернли» разрезающей передачей на Сеада Колашинаца, чья своевременная откидка мяча назад нашла Обамеянга, дав ему возможность забить гол. Понятное дело, что на бумаге голевая передача для этого гола была записана на Сеада Колашинаца. Но, как аналитик, Вы могли бы задать (и правильно) вопрос о вкладе Озила в это взятие ворот. Где же та метрика, которая могла бы пропорционально разделить вклады Озила и Колашинаца в этот гол? Существующие подходы Существует несколько количественных подходов, которые Вы могли бы использовать для решения этой задачи: - Вы можете посмотреть на ассисты, но тогда вклады таких людей, как Озил, остались бы незамеченными. - Вы можете посмотреть на xGChain, но тогда xG финального удара (в данном случае = 0.13) будет поровну разделен между каждым игроком, участвующим в данной комбинации. Колашинац, Озил Обамеянг, Ляказет, Мейтленд-Найлз были бы здесь вознаграждены одинаковым количеством xGChain, что не отображает реального вклада. - Вы можете посмотреть на разницу в xG, вызванную каждым отдельным действием в комбинации. Это уже лучше, но не всегда именно проникающий пас влечет за собой создание хорошего голевого момента. Например: передача Озила вскрывает оборону, но она все еще не вывела Колашинаца на отличную позицию для взятия ворот. Передача Озила скорее вывела Колашинаца на позицию, с которой он, в свою очередь, может создать хороший голевой момент. Можем ли мы справиться лучше? На изъянах существующих метрик мы бы хотели получить подход, который может: 1. Вознаграждать индивидуальные действия игроков (передачи, обводки) в комбинационной игре. 2. Оперировать данными на уровне событий. 3. Вознаграждать действия независимо от финального результата владения мячом (например: вознаграждение Озила не должно зависеть от реализации Обамеянга) 4. Вознаграждать продвижение мяча не только в высокие по xG позиции, но и в «угрожающие» позиции, которое потом может повлечь за собой попадание мяча в те самые высокие по xG позиции с высокой вероятностью взятия ворот. Конечно же, нет универсального решения, которое здесь точно было бы «правильным». Как всегда, существует компромисс между сложностью моделирования и точностью. Цель этого материала, однако, предоставить вам один из возможных подходов и пробежаться по тому, как он может быть имплементирован для анализа комбинационной игры. Давайте еще раз пробежимся по требованиям, на этот раз, предлагая и уточняя решение по мере продвижения: 1. Вознаграждать индивидуальные действия: наша модель должна начислять очки за каждое действие игрока (передача или обводка), в зависимости от того, какой вклад в комбинационную игру оно внесло. 2. Данные на уровне событий: у нас нет доступа к любым учетным данным игроков; у нас есть лишь список последовательных событий вместе с базовыми атрибутами этих событий, такими как: игрок во владении, проведенное время на поле, начальное местоположение, конечное местоположение итд. 3. Независимость от финального результата: каждое действие должно быть оценено в изоляции, независимо от того, что произошло во владении до и после него. По мере поступления соответствующих вводных сигналов, у нас фактически остаются только начальные и конечные точки действий. Как на основе этого мы можем начислять балы? Мы можем построить подход «по разнице в xG» и задавать значение каждой локации на футбольном поле. Таким образом, если конкретное действие влечет за собой продвижения мяча из точки А в точку Б, балы за действие просто будут значением, равным «Б минус А». 4. Определять «угрожающие позиции»: во время задавания значение каждой локации на поле мы должны смотреть за рамки xG. Значение, генерируемое xG, подразумевает, что следующим нашим действием станет удар. На поле все еще много зон, с которых трудно забить напрямую, но с которых можно продвинуть мяч локации с более высоким уровнем xG. Когда мы задаем значения действиям, нам нужно определять эти угрожающие позиции. Другими словами, xG нам дает только одно действие (удар) с одной позиции. В свою очередь, чтобы оценить угрозу, мы должны оценить возможность соединения в цепочку нескольких действий. По итогам этих предположений моделирования нашу проблему теперь легче переварить: имея хранилище данных на уровне событий, можем ли мы оценить угрозу каждой зоны на футбольном поле? Владея мячом... Есть один способ просмотра комбинационной игры и он состоит в следующем: когда команда владеет мячом, они могут либо ударить (и забить гол с определенной вероятностью), либо переместить мяч в другую зону с помощью передачи/дриблинга. Это продолжается до момента потери мяча или забитого гола. Если мы будем работать с этой упрощенной моделью игры, как будут выглядеть данные? По каждой позиции нам нужно знать: как часто футболисты бьют (и как часто забивают), как часто они передвигают мяч и куда они его передвигают. Следующая схема суммирует данные за все игры АПЛ в сезоне 2017-18. (извините, не стал заморачиваться с тем, как вставить эту штуку в блог на Спортсе. Записал на видео, но не поленитесь и зайдите на оригинальном сайте поклацайте ее, она крутая) Поигравшись с этой таблицей, Вы начнете замечать, что каждая зона (x, y) имеет определенные аттрибуты: - Вероятность продвижения m (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает продвижение мяча в качестве следующего действия? - Вероятность удара s (x,y): когда игрок находится с мячом в зоне (х,у), как часто он выбирает удар в качестве следующего действия? В нашей вселенной по умолчанию у него есть только два варианта: продвинуть мяча (пас/дриблинг) и пробить по воротам. Получается, что m(x,y) + s(x,y) = 100% - Матрица продвижения t(x,y): в этом случае мы говорим о том, куда и с какой вероятностью футболисты перемещаются и зоны (x,y). На схеме сверху эти зоны обозначены разными оттенками зеленого цвета (чем зеленее цвет, тем чаще эта зона становится следующим пунктом назначения мяча). - Вероятность гола g(x,y): здесь уже о том, куда игроки бьют с зоны (х,у), какая вероятность того, что удар закончится голом. Стоит подметить, что это лишь очень простая имплементация xG. Взглянуть за пределы шахматной доски Теперь, когда у нас уже есть система вычисления, давайте резюмировать чего мы здесь пытаемся достичь. Проблема с моделями, полностью ориентированными на удары, типа xG, в том, что когда дело доходит до комбинационной игры, много значимых действий сразу же не ведут к хорошим голевым возможностям...Но они скорее ведут к хорошим ситуациям для взятия ворот несколько действий спустя. Эту теорию очень красноречиво выдвинул Ден Сервон ( https://www.lukebornn.com/papers/cervone_ssac_2014.pdf ) в контексте баскетбольной аналитики (хотя его цитаты очень даже применимы к футболу). Так как же нам взглянуть за пределы шахматной доски, имея данные, которым мы здесь оперируем? Как нам задавать зонам такие значения, которые бы не отображали сиюминутную забивную значимость, а будущее вознаграждение, которое они могут дать (путем передвижения мяча в другие зоны)? Ключевой момент здесь в том, что, владея мячом в какой-то зоне (х,у), у тебя есть выбор: ты можешь ударить и забить с определенной вероятностью, либо ты можешь передвинуть мяч в другую локацию. Извлечение xT Здесь я решил не заниматься переводом и оставить этот раздел самым большим статистическим гикам. В нем автор посвятил очень много текста объяснению своих алгоритмов и раздел получился очень специфическим. Пропустим его. Визуализация xT Теперь, когда у нас уже есть формула нахождения xT по всему полю, как будет выглядеть наш результат? Эта визуализация показывает нам как 2D карту, так и 3D модель, построенные с использованием всех данных сезона 2017-18. Самое крутое то, что просчитать вероятность гола можно на разное количество итераций вперед, просто двигая слайдер (от одной до пяти). Что нужно закрепить: - ожидаемые угрозы (xT) = 0.413: когда команда владеет мячом в выделенной зоне, вероятность, что они забьют гол за следующие пять итераций составляет 41.3%; - на нулевой итерации карта плоская, так как итерация=0 является отправной точкой для дальнейших вычислений; - на итерации=1 у нас уже есть просчитанная модель; - при каждой следующей итерации мы видим заполнение карты xT все дальше и дальше от выбранной точки (как мы уже посмотрели, каждая итерация позволяет просчитаться еще одно действий в командной игре); - показатели xT начинают сливаться воедино после 4-5 итерации. Применение xT Немного отдалившись от всех этих вычислений, еще раз подчеркнем, что смысл всей это метрики в том, чтобы количественно оценить угрозу, которую несет любой клаптик поля. Теперь, когда у нас уже есть xT, мы можем оценить индивидуальные вклады игроков в комбинационную игру путем высчитывания разницы xT между начальными и конечным локациями. Другими словами, мы говорим, что любое действие, которое перемещает мяч из точки (х,у) в точку (z,w), имеет значение хТ(z,w) - хТ(х,у). Еще раз, есть одно очень хорошее обозначение для этого всего: стоимость действия равняется % изменения в шансах команды забить за следующие пять итераций из-за этого действия (с учетом того, что мы сейчас говорим о пяти итерациях, мы используем понятие «следующие пять действий»). Теперь давайте попробуем решить проблему оценки действий Озила и Колашинаца, но уже используя формулу xT: 1. Пас Озила перемещает мяч из хТ=0.077 в хТ=0.158. Пас Озила делает разницу хТ=0.081. 2. Пас Колашинаца перемещает мяч из хТ=0.158 в хТ=0.171. Пас Колашинаца делает разницу хТ=0.013. Смотря на эти цифры, мы видим, что Озил наиграл на 0.81/(0.81+0.013)=86% в разнице хТ, а Колашинац, несмотря на свой ассист, всего на 14%. Лидеры по хТ В качестве проверки своего здравомыслия автор предлагает посмотреть на список лидеров создания хТ в сезоне АПЛ 2017/18. Следующая таблица показывает топ 15 игроков лиги, чьи действия в совокупности принесли самую большую разницу по метрике хТ. Обратите внимание, что список упорядочен не на основе общего количества принятых решений, а на грубой суме хТ. Автор это сделал преднамеренно, чтобы покрыть не только игроков, которые умеют обострять, но и тех, кто делает это постоянно и в больших объемах. Нахождение Холебаса на третьем месте может вызвать удивление, но левый защитник «Уотфорда» в том сезоне зарекомендовал себя как самый стабильный и опасный созидатель команды. Кроме простого начисления очков в командной игре, система хТ служит пристанищем и для других применений. Например, на данный момент мы только посмотрели хТ результаты суммарно по всем командам АПЛ сезона 2017-18, но прошли мимо конкретных данных по командам. Нет никаких сомнений, что команды по-разному ведут себя во время владений, отдают приоритет разным участкам поля и идут разными путями к голам, в зависимости от своих сильных сторон. Что происходит, когда вместо сбрасывания всей статистики в кучу мы просчитаем хТ по командам? Визуализация хТ по командам С большой долей уверенности можно сказать о том, что мы видим очень много разнообразия в стилях команд. В добавок к разнице в изгибах выгибов сеток команд, обратите внимание на разницу в высоте. Например, «МанСити» и «Шпоры» имеют приблизительно одинаковые изгибы (что означает, что у них похожая ценность продвижения мяча в тех же зонах), но магнитуда хТ очень рознится. Это означает, что в одних и тех же зонах игроки «МанСити» на порядок опаснее своих лондонских конкурентов (благодаря более высокой реализации). При том, что на эти командные карты хТ очень интересно смотреть, сами по себе они не полностью применимы. Учитывая вышесказанное, фундаментальные данные мощные потому, что они могут дать нам командно-ориентированный взгляд на то, откуда возникает опасность во время комбинационной игры. Например, есть один очень полезный вопрос, на который нужно искать ответ во время предматчевых разборов соперников: с какого участка поля наши соперники создают больше всего опасности? Чтобы на это ответить, мы можем использовать хТ карту нашего оппонента и оценить все действия из сыгранных ими матчей. Другими словами, на каждой ячейке схемы мы можем посмотреть на действия, который там зародились и на суму хТ этих действий. Это даст нам по-зонное суммарное значение, которое подчеркнет уровень опасности, созданной с разных участков поля. В добавок, подсвечивание самых популярных конечных зон продвижения мяча даст нам понимание любимых коридоров движения мяча наших соперников. Чтобы сделать все это еще более полезным для тактических установок команд, нам хотелось бы узнать кто те самые игроки, которые ответственны за создание угрозы через коридоры. Кто создает опасность и откуда? Это видео работы очередного алгоритма попытается ответить на наш вопрос максимально точно. Подсвеченные зоны показывают откуда чаще всего создается хТ. Ховеры/клики на отдельные участки покажут опасные маршруты мяча, которые там рождаются и самых задействованных игроков. (зайдите на сайт автора и прощупайте все своими руками) Предстоящая работа Продемонстрировано всего несколько вариантов применения хТ и нам предстоит открыть еще много новых. Присущая хТ возможность покрывать поведение команд «на мяче» влечет за собой много новых перспективных направлений. Взгляд на то, как хТ корректируется по ходу продвижения атаки может, например, помочь нам идентифицировать и анализировать такие схемы движения, как контратаки. На уровне игрока мы можем оценить индивидуальный уровень принятия решений по отношению к тому, как его команда играет в целом: «делает ли этот футболист ценные для хТ его команды выборы передач?». А не стоит ли ему выбирать удары вместо обводок в конкретных зонах? Вероятнее всего, еще больше интересного для себя смогут найти футбольные скауты: «можем ли мы сказать, что этот игрок вольется в нашу систему? Есть ли у него история принятия тех решений, которые будут полезными для хТ нашей команды?» Поддержите автора! Если у Вас на уме есть какие-то направления, которые Вы бы хотели изучить вместе с автором, Вы можете с ним связаться в Твиттере @karun1710 или напрямую по электронной почте karun.singh17@gmail.com Ссылка на оригинал: https://karun.in/blog/expected-threat.html Подписывайтесь, чтобы не пропустить следующий эпизод ____________________________________________________________ Телеграм: https://t.me/joinchat/AAAAAEHW5BOJk7UUVfCEsA Фейсбук: https://www.facebook.com/stanislav.honcharenko.73 Твиттер: https://twitter.com/Stasiano1