分析不同的预期进球模型

预期进球指标之前仅为一小群体育数据群体所采用，现在它已经是常见的足球统计数据（诸如控球、射正射门数和犯规次数）之一。然而，可以用来预测进球数量的方法数不胜数。本文检测了使用的不同模型以及它们如何产出不同的数据。

足球比赛的目的是自己进球，而不让对方进球。这听上去很简单，但是因为随机性和运气因素，球队并不总是能得到他们“应得”的结果。

这就是为什么诸如预期进球的数据分析和指标在体育博彩中有用武之地——我们能站在一个更为分析性的立场来分析表现，并且揭示出诸如“他们运气不好才没赢”之类主张的实质。

预期进球（通常缩写为xG）是足球球队使用的一种数据分析形式，它在博彩玩家们之间变得越来越流行。预期进球统计数据在网上唾手可得，但是由于使用了不同的模型来计算，所以它们并不总是一样的。

模型有简单的也有复杂的，下面解释了不同的预期进球模型如何运作。那么这些不同模型背后的机制是什么？它们产出的数据又有何不同？

因为射门是进球的决定性动作，
所以射门数据是任何预期进球模型的关键所在。

Andrew Beasley之前已经使用了一种基础射门数据模型，解释了如何计算预期进球。因为射门是进球的决定性动作，所以射门数据是任何预期进球模型的关键所在。一场足球比赛中有数不清事件会帮助进球，但是在尝试预测这个特定结果的时候，射门无疑是最为重要的。

这是一种使用被Opta定义为一个“绝好机会”——此时球员理当进球——以及禁区内和禁区外射门的简单方法。

过去五个英超赛季的射门转化进球率显示一个绝好机会的xG值为0.387（进球机会为38.7%），禁区内射门为0.070，禁区外射门则为0.036。

考虑到足球球场的尺寸、射门能够使用的各种角度及其对于进球可能性的影响，一种模型是否会更详细地分析射门位置，将影响到它产出的预期进球数据。

尽管类似于Andrew Beasley的基础预期进球模型，但是这种方法采用一种对于射门位置的深度分析，用以分配它的xG值。这样做的最简单方法是把进球的射门距离分割为一个网格图，标出每次射门的位置。

使用这种模型的好处在于它考虑到了这些情况之间的差异：球员在球门前直接射门（非常可能进球），球员的射门角度是很窄（不太可能进球），以及球员是否头球射门（更难进球）或用脚射门（更容易进球）。

Paul Riley的模型是一个很好的例子：在建立一种xG模型时，它采用了一种稍微更加先进的分析射门位置数据的方法。

当然，决定射门转化进球的可能性的不仅是射门位置和使用的身体部位。射门之前的进攻动作会影响到这个射门机会的质量。

比起简单地根据射门位置来在一次射门上分配一个xG值，某些模型会检查射门机会是如何创造出来的（一次传中、一次直传球、一次防守反击等）并更详细地分析如何进行的射门（一次成功的运球突破后的射门、一次救球后的反弹球等）。

显然，这种模型的建立和维持都需要更多的数据和资源。

前面三种预期进球建模方式，都能很好地预测一支球队在一场比赛或一整个赛季中应该期待的进球数量。不过还有别的有助于一个潜在进球得分机会的变量。

足球不只是关于进攻。防守站位以及减少你的对手的得分机会是同样重要的——后卫能够迫使一名进攻球员用不同的方式射门，或者强迫他在最后一刻做出调整，让进球得分变得更难。

比起简单地根据射门位置来在一次射门上分配一个xG值，某些模型会检查射门机会是如何创造出来的并更详细地分析如何进行的射门。

除了分析整个进攻过程——从进球机会是如何创造出来的一直到最后的射门动作在哪里发生——使用对方后卫的距离以及它会如何影响射门质量，能够为预期进球建模补充另一层面的细节。

这就意味着查看和射门位置相关的守门员和后卫站位，可能会在所有模型中产出最精准的预期进球数据。

现在我们知道了不同的预期进球模型如何运作，我们可以开始分析哪种方式会产生最精准的结果。下表比较了英超2016/17赛季中，每支球队的实际净胜球和使用上述不同预期进球模型产出的预期净胜球数据。

评估每种方法精确性的最佳方式是找到方均根偏移（RMSD）——有时也被称为方均根差（RMSE）。通过计算每支球队的实际净胜球和预期净胜球的差值平方的平均值，然后找到该平均值的平方根，就可以找到方均根差。

	模型1的预期净胜球	模型2的预期净胜球	模型3的预期净胜球
方均根差	12.92	12.55	12.01

诚如你所见，三种不同方法计算出的英超联赛2016/17赛季的预期净胜球不可思议地接近——尽管使用了不同级别的数据，三种方法之间的方均根差仅为0.91。

然而，一个赛季（380场比赛）的样本数量不够多，不能凭借它就确凿断定一种方法就比其他方法好。此外，计算每场比赛的方均根差更有可能让我们了解每种模型的精确性，以及它们能多接近地预测一场比赛中的进球得分数量。

以上摘自Pinnacle Sports