1、1 同济大学 2018 年数学建模竞赛 C 题 摘 要 足球赛事的 战术评价 与排名机制 的选定对于提高球队竞技水平、激发球员拼搏的积极性有着重要的作用 。首先,我们通过主成分分析法、 BP 神经网络构建了球队实力的多维度评价模型并以此预测战绩。其次,我们通过定义不完全信息偏差度 d来衡量比赛推进过程中各排名算法的优越性。最后,我们评价了外援对球队实力与打法的多维度影响。 针对问题一,我们构建了球队实力的多维度评价模型,并结合主客场因素 来预测第九轮的战绩。首先,针对每场比赛的技术数据,我们运用主成分分析法提取了 3个主成分指标 球队威胁性进攻的技术及能力战术,积极防御的技术及战术能力,传控与
2、协同配合的技术及战术能力。其次,我们运用 BP 神经网络来预测第九轮的战绩 我们设置了主客场两队的 3个维度的实力为自变量,设置了战绩为因变量,通过训练神经网络,使检测组达到了 76.9%的正确率。最后,我们预测的战绩如下表。 主场 大连 斯威 富力 华夏 上港 人和 泰达 苏宁 客场 恒大 权健 申花 建业 国安 鲁能 恒丰 亚泰 主场的战绩预测 负 胜 平 胜 平 负 胜 胜 针对问题二,我们定义了不完全信息偏差度 d,以此来量化评价不同算法在比赛推进过程中、也就是不同信息完全度下衡量球队实力 算法 的准确度。首先,我们考量了三种排名算法 进攻强弱系数排名法、综合强弱系数排名法以及题给的积
3、分法。其中在进攻强弱系数排名法中,我们统计了球队两两比赛时的进球数矩阵 A,设置了进攻强弱系数向量 X,由关系式 AX X ,计算得到球队 强弱系数 向量 X。我们类似地设计了综合强弱系数排名法 以球队两两比赛时的积分矩阵 B代替 A。 最后 ,我们通过计算不同算法的 d来评判比赛推进过程中各算法的优越性,所得结果如下表。 轮次 较优的算法 第 5 到 10 轮 综合强弱系数排名法、进攻强弱系数排名法 第 10 到 20 轮 综合强弱系数排名法 第 20 到 30 轮 综合强弱系数排名法、积分法 结果表明,综合强弱系数排名法克服了积分法在比赛初期,由不完全竞争导致的偏差,具有优越性。最后,我们
4、运用综合强弱系数排名法,基于前 8轮比赛成绩,对 16支队伍进行了排名 。 针对问题三,我们从两个方面评估中超赛事中外援的重要程度 外援对球队多维度实力 的贡献度以及外援对球队打法的影响。首先,我们运用主成分分析法衡量了外援对球队实力三个维度 进攻与突破、防御及反击、传控及助攻实力的贡献程度,并以广州富力、天津权健为例详细分析每个外援的贡献度。最后,我们运用变异系数作为确定权重的方法,构建了外援对球队打法的评价模型。 关键词: BP 神经网络 主成分分析法 变异系数法 不完全信息偏差度 2 目 录 一、问题重述 . 3 二、问题分析 . 3 三、问题假设 . 5 四、符号说明 . 5 五、问题
5、一的模型建立与求解 . 6 5.1 构建球队实力的多维度评价模 型 . 6 5.2 技术指标的筛选和确定:运用主成分分析法 . 6 5.4 模型评价 . 12 六、问题二的模型建立与求解 . 12 6.1 问题假设 12 6.2 定义不完全信息偏差度 . 12 6.3 设计三个排名算法 . 13 6.3.1 进攻强弱系数排名法 13 6.3.2 综合强弱系数排名法 15 6.3.3 积分法 16 6.4 偏差度 . 16 6.5 实力排名 . 17 6.6 模型评价 . 17 七、问题三的模型建立与求解 . 18 7.1 问题假设 . 18 7.2 评估外援的重要程度 . 18 7.2.1 外
6、援对球队多维度实力的贡献度 18 7.3 外援对球队打法的影响 . 21 7.3.1 背景介绍 22 7.3.2 建立模型 基于变异系数法的评价球员对球队打法影响的模型. 22 7.3.3 变异系数法 22 7.3.4 模型求解 23 7.3.5 模型优劣点评价 24 八、模型评价 . 24 九、参考文献 . 25 十、附录 . 25 3 一、问题重述 中国足球超级联赛是 中国最优秀的职业足球俱乐部参加的全国最高水平的足球职业联赛 ,共有 16 支球队,赛制为主客场双循环赛。这个 五一小长假期 ,中超第 8轮联赛继续燃起烽火 。大家对比赛结果的预测和议论铺天盖地, 本文 将运用所学的知识和网上
7、提供的数据来进行一些预测和评估: 1.考虑对抗双方的主客场情况,建立模型预测第 9轮比赛中对抗双方的战绩。 2.综合前 8 轮的比赛成绩,对所有的 16 支球队的实力进行排名,并评估赛事进行中,利用积分排名的合理程度。 3.评估中超赛事中外援 (外国球员 )的重要程度,即他们是如何影响一支球队的实力,乃至一支球队的打法的。如果网上的数据不够充分,阐述需要的数据类型,并评估所建立模型的科学性。 二、问题分析 问题一的分析 : 一场足球比赛的结果会受到很多因素影响, 所以在预测战绩时不仅要考虑球队的各方面水平,还要考虑 主客场 这些因素 。 我们构建了球队实力的多维度评价模型, 以此来预测战绩会较
8、为准确 。首先,针对每场比赛的技术数据,我们运用主成分分析法提取了 3 个主成分 技术 指标。其次,我们运用 BP神经网络来预测第九轮的战绩 我们设置了主客场两队的 3 个维度的实力为自变量,设置了战绩为因变量,通过训练神经网络,使检测组达到了 76.9%的正确率。 4 问题二的分析 : 当比赛处在进行中,哪种方法更能真实显示队伍之间的实力呢? 如果某支水平一般的球队碰巧跟弱队比赛的场次较多,则显然他的得分较高,按得分高低排序,该球队的排名可能会虚高,这显然有失公平。所以我 们觉得计分规则应考虑各队的强弱程度, 通过以上三种方法得出的排名与标准之间的距离作为评判在比赛进程中哪种方法最优。标准是
9、根据上赛季三十轮比赛的数据,用积分法得出的,也就是上赛季最终的排名。 问题三的分析 : 外援对于球队起着关键作用,现在球队中普遍有多名外援。外援,作为接受与国内不同足球文化思维和打法训练的球员,将给球队打法带来新的思路和创意,甚至能决定一个球队的打法 ,带来比赛的胜利 。 我们运用主成分分析法和变异系数法来研究外援对球队多维度实力的贡献度和对球队打法的影响。 5 三、问题假设 1.已知的球队技术参数准确,这些参数能够体现球队在某一方面的实力。 2.在一个赛季内,球队的状态和实力基本稳定在一个区间内,不发生大的变动,诸如教练员的更替,球队明星球员的意外伤病。 四、符号说明 参数符号 符号意义 不
10、完全信息偏差度 球队能力指标 球队技术指标 主场球队能力指标 客场球队能力指标 球员实力指标 球员技术指标 球队和球员总技术指标 im 第 i 支球队 球队的第 i 个球员 iV 第 i 项指标 的变异 系数 i 第 i 项指标的标准差 ix 第 i 项指标的平均数 iW 第 i 项指标的权重 6 五 、问题一的模型 建立与求解 5.1 构建球队实力的多维度评价模型 首先,我们采集了比赛各种技术参数的信息,随后,我们通过 SPSS 软件,运用主成分分析确定和形成评价指标体系和权重,由此提取出了三个影响比赛战绩的重要指标。 由于技术参数众多,并且变量之间是 有一定的 相关关系 的, 所以反映战绩
11、的信息会有一定的重叠。 主成分分析 就 是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映 战绩 的信息方面尽可能保持原有的信息。 目前,前八轮比赛都已经结束,但由于有一场比赛的数据异常,我们的样本容量为 126。 5.2 技术指标的筛选和确定 :运用主成分分析法 我们选取的球队技术指标分别为:射 门、直塞球、传中、传球、角球、长传球、抢断、争头球、犯规、越位 1。为了检验我们所选取的技术指标是否适合做主成分分析,我们运用 SPSS 对影响指标进行 KMO 检验 和巴特利特球形检验 ,测试结果见表 5-1。
12、 KMO 统计量 0.631 Bartlett 的球形检验 相关矩阵 的卡方检验 178.781 自由度 45 显著性水平 0.000 表 5-1 KMO统计量和巴特利特球形检验 对技术指标 KMO 统计量为 0.631,相关矩阵的卡方检验结果为 178.781,显著性水平 p0.05,说明技术指标变量适合做主成分分析。 7 表 5-2总方差解释 表 成分 A1 A2 A3 射门 E1 .706 -.174 .185 直塞球 E2 -.013 -.188 .736 传中 E3 .844 .205 -.024 传球 E4 .265 -.187 .606 角球 E5 .802 -.066 -.06
13、7 长传球 E6 -.409 .382 -.254 抢断 E7 -.048 .102 .647 争头球 E8 .113 .777 .248 犯规 E9 -.060 .708 -.146 越位 E10 .103 -.570 .256 表 5-3 最大方差旋转后因子载荷矩阵分析表 为更好地解释各个因子在各个变量上的载荷,运用 Kaiser标准化的方差最大 正交旋转法,通过旋转,加大各个因子载荷的两极分化,拉大绝对值的距离,提高 区分度,便于讨论与评价各个共性因子的具体含义。 以特征值大于 1 为标准选择主成分,由表 5-2得出,有 3项主成分累计贡献率 54.318%, 说明这 3 项主成分基本包
14、含了全部指标具有的信息。由此,我们提取这 3 项指标进行主成分分析。 组件 初始特征值 提取载荷平方和 旋转载荷平方和 总计 方差百分比 累积 % 总计 方差百分比 累积 % 总计 方差百分比 累积 % 1 2.478 24.784 24.784 2.478 24.784 24.784 2.119 21.195 21.195 2 1.700 17.000 41.784 1.700 17.000 41.784 1.732 17.321 38.516 3 1.253 12.534 54.318 1.253 12.534 54.318 1.580 15.801 54.318 4 .936 9.358
15、 63.676 5 .857 8.569 72.245 6 .776 7.759 80.004 7 .678 6.779 86.783 8 .535 5.352 92.135 9 .440 4.404 96.539 10 .346 3.461 100.000 8 A1=0.706*E1-0.013*E2+0.844*E3+0.265*E4+0.802*E5-0.409*E6-0.048*E7+0.113*E8-0.060* E9+0.103*E10 从中可以看出, E1射门、 E3传中和 E5 角球对 A1的影响较大。 A2=-0.174*E1-0.188*E2+0.205*E3-0.187*
16、E4-0.066*E5+0.382*E6+0.102*y7+0.777*E8+0.708 *E9-0.570*E10 从中可以看出, E8争头球和 E9犯规对 A2的影响较大。 A3=0.185*E1+0.736*y2-0.024*E3+0.606*E4-0.067*E5-0.254*E6 +0.647*E7 +0.248*E8 -0.146 *E9+0.256*E10 从中可以看出, E2直塞球和 E7抢断对 A3的影响较大。 我们将 A1、 A2、 A3 这三个指标分别取名为:球队威胁性进攻的技术、战术能力;球队积极防御的技术、战术能力;球队传控与协同配合的技术、战术能力。 这三个指标可以
17、很好的从全方面去衡量一个队伍的实力水平,对比赛的战绩有较大影响。 5.3 战绩预测:运用 BP 神经网络 我们把每个队伍在前八轮的三个指标分别求平均值,得到表 5-4。 A1 A2 A3 恒大 111.7704 -20.9843 249.8543 大连 93.77488 -26.0723 246.2781 富力 129.337 -46.097 319.4823 国安 142.1428 -56.2385 348.6813 恒丰 103.2976 -17.1931 262.9961 华夏 119.8963 -38.1691 304.687 建业 67.70413 3.419 191.4585 鲁能
18、 106.9165 -15.8668 266.1381 权健 112.6954 -27.1296 269.493 人和 91.72257 -14.3337 222.6129 上港 109.3954 -24.659 260.4485 申花 88.63263 -17.9268 231.7171 斯威 98.84688 -12.838 246.4261 苏宁 113.6623 -30.9745 264.8404 泰达 91.09075 -18.2239 238.5106 亚泰 80.75857 -2.581 210.785 表 5-4 9 考虑到主客场因素,我们以主场的队为研究对象,同时也将客场的也
19、纳入自变量。六个自变量 主客场双方的三个技术指标 2,因变量为战绩 1 为胜, 0为平, -1为负。 我们有 63个样本(剔除了一个异常样本),按 8比 2的比例分为培训组( 50个)与检验组( 13个),并针对第九轮的 8 个样本进行预测。 人工神经元的输入输出对应关系为: y = f( wixi T)ni=1多个具有特定的加权系数 Wi的输入信号 Xi同时输入神经元,神经元首先根据权重分配调整输入的信号,确定总体效果。然后,神经元处理输入的信号,比较总输入和偏置值并进行函数转换,得到输出 y。 10 图 5-1 BP神经网络图 根据柯尔莫哥洛夫定理:任意一个连续函数 f:Un Rn , f
20、( x) = Y( U 0,1) 均可通过一个由输入层、隐层和输出层组成的前向神经网络实现。以该定理为基础,建立一个 BP 神经网络模型。 我们运用了 SPSS 的多层感知器功能,多层感知器是一种在输入和输出顶点之间含有一层或多层隐含顶点的前馈网络。只要在输入与输出之间加一个隐含层,形成一个两层的感知器就可以完成异或逻辑门。 我们可以看到图 5.1中有一个输入层,两个隐藏层,一个输出层。输入层神经元个数为 6 个,第一个隐藏层是 4 个,第二个隐藏层是 3 个,输出层是 3 个。11 激活函数为双曲正切函数。双曲正切函数 的输出和输入能够保持非线性单调上升和 下降关系,符合 BP 网络的梯度求
21、解,容错性好,有界,渐进于 0、 1,符合人脑神经饱和的规律。 培训 平方和误差 15.572 不正确百分比预测值 28.0% 所使用的停止规则 1 个连续步骤中错误没有减少 a 培训时间 0:00:00.02 测试中 平方和误差 4.202 不正确百分比预测值 23.1% 表 5-5模型摘要 表 因变量:胜负 a. 错误计算基于测试样本 样本 观察值 (O) 预测值 -1 0 1 正确百分比 培训 -1 15 3 1 78.9% 0 0 5 4 55.6% 1 1 5 16 72.7% 总体百分比 32.0% 26.0% 42.0% 72.0% 测试 -1 3 0 1 75.0% 0 0 2
22、 1 66.7% 1 0 1 5 83.3% 总体百分比 23.1% 23.1% 53.8% 76.9% 表 5-6分类 表 因变量:胜负 根据表 5-5,模型误差在 1个连续步骤中未出现优化减少现象,模型按预定中止。从表 5-6 可以得出, 50 个培训组的预测正确率为 72.0%, 13 个测试组的预测正确率为 76.9%。 神经网络 是 对非线性系统建立预测模型和优化控制的关键技术之一 。 神经网络模型起源于对人类大脑思维模式的研究,它是一个非线性的数据建模工具, 由输入层和输出层、 一个或者多个隐藏层构成神经元,神经元之间的连接赋予相关的权重,训练学习算法在迭代过程中不断调整这些权重,
23、从而使得预测误差最小化并给出预测精度。 12 主场 -客场 X1 X2 X3 Y1 Y2 Y3 输出 预测主场胜负 大连 -恒大 93.775 -26.072 246.278 111.77 -20.98 249.854 -1 负 斯威 -权健 98.847 -12.838 246.426 112.695 -27.13 269.493 1 胜 富力 -申花 129.337 -46.097 319.482 88.633 -17.93 231.717 0 平 华夏 -建业 119.896 -38.169 304.687 67.704 3.42 191.459 1 胜 上港 -国安 109.395 -
24、24.659 260.448 142.143 -56.24 348.681 0 平 人和 -鲁能 91.723 -14.334 222.613 106.917 -15.87 266.138 -1 负 泰达 -恒丰 91.091 -18.224 238.511 103.298 -17.19 262.996 1 胜 苏宁 -亚泰 113.662 -30.975 264.84 80.759 -2.58 210.785 1 胜 表 5-7 第九轮预测图 5.4 模型评价 优点: 1.一支球队在一场比赛中的比赛发挥是波动的,是众多因素共同作用的结果。我们综合考虑了球队在已结束的所有比赛中三个指标的均值,
25、能够在一定程度上减小随机误差。 2.选取了主场队伍作为研究对象,并同时将客场队伍球队的指标作为参数输入神经网络训练,综合考虑了两队伍的实力差距,体现了模型的科学性。 不足: 1.BP 神经网络隐节点的选取缺乏理论指导,且对具体实际意义的重视不够。 六、问题二的模型建立与求解 6.1 问题假设 1.假设球队在比赛过程中发挥稳定,球队排名与标准实力排名间的误差仅由比赛进行的主客场与对战球队的随机因素决定。 2.在完全信息状态下(即第 30 轮时),偏差度达到最小。 6.2 定义不完全信息偏差度 中超联赛采用主客场双循环赛制,球队每个赛季两次互相比赛(即平衡赛程),一次在第一轮至第十五轮比赛中,一次
26、在第 16至 30轮比赛中,当主队和客队的13 状态相反时。比赛结果(即胜利,平局或失分)决定了分配给球队的积分数量:没有积分被分配给比赛的输家,而每个球队获得 1分或 3分分别是平局或胜利的情况。一个赛季积分的数量决定了联盟的排名。 每两个球队交手顺序具有随机性,而赛制的镜像对阵特征反映了主客场这个随机因素。 标准是根据上赛季三十轮比赛的数据, 由 积分法得出的,也就是上赛季最终的排名。我们定义比赛推进过程中由算法得到的球队实力排名与标准排名的偏差为不完全信息偏差度(以下简称为偏差度) : d(u,v) = (| |216=1)1/2 其中, 为 由 算法 u 得到的 i 队的排名, 为标准
27、中第 i 队的排名。 偏差度有两个来源:一是比赛前期未和其他所有队伍交手而产生的偏差,比如一支球队如果都是和比较弱的队伍交手,他的排名就会虚高。二是两队第一次交手时主客场因素所带来的偏差,该偏差会随着第 16到 30轮比赛的推进而减弱。 我们设计了三种评价模型,接下来将比较他们在不同信息不完全程度的时候,也就是比赛推进过程中,哪种方法更优。 6.3 设 计三个排名算法 我们收集了 2017 赛季中超联赛完整的三十轮比赛双方进球数及积分,刻画三种评价体系的不完全偏差度随比赛 进行轮次的变化规律。三种评价体系分别为:进攻强弱系数排名法、综合强弱系数排名法、 积分 法。为了解决来源一和来源二的偏差,
28、我们构建了进攻强弱系数排名法、综合强弱系数排名法两种评价模型。 6.3.1 进攻强弱系数排名法 进攻强弱系数排名法是依据球队进球数和进攻强弱系数的评价模型。 6.3.1.1 排名 规则 排名规则取决于比赛得分,比赛得分依对手强弱的差异体现得分的含金量。 ( 1)球队 iT 的比赛得分 iy 等于该球队与其它各队比赛的得分之和; 14 ( 2)球队 iT 与球队 jT 比赛的得分 ija ,除了依据各场比赛结果的得分以外,还需考虑对手 jT 的实力因素(强弱系数)。 6.3.1.2 得分矩阵构造及基于对手强弱系数权重的球队比赛排名分的计算 总共 16支球队,分别为 T1,T2, T16 每队的强
29、弱系数为 x1,x2, ,x16, 01ix, 各队的比赛得分为 y1,y2, ,y16, 0iy 。 设 X=(x1x2x16); A=(a11 a12 a1,16a21 a22 a2,16a16,1 a16,2 a16,16); Y=(y1y2y16) A=(aij)16*16称为得分矩阵 ( 0A ),其中 ija 是球队 iT 与球队 jT 比赛的得分(可由初步排名方案中的该两队的总得分法、或平均得分法计算)。 球队 iT 与球队 jT 比赛的得分为 ija (总得分、或者平均得分),则 ijTT 比赛结合强弱系数权重的综合排名分为 j ijxa ; 球队 iT 的比赛总得分为 yi=
30、x1ai1+x2ai2+x3ai3+ +x16ai16 , i=1,2, 16 各球队比赛排名分写成矩阵形式 Y AX ,则有 (y1y2y16)=(a11 a12 a1,16a21 a22 a2,16a16,1 a16,2 a16,16)(x1x2x16) 6.3.1.3 球队比赛得分排序的特征向量模型的建立 上述讨论中, Y 是球队的比赛得分向量,而 X 表示各球队的强弱系数向量, 两者均体现各球队的实力,故两者应该成比例关系,即 YX AX X 15 这样,无论确定了 X 或者 Y ,都可以给出各球队的排名次序。由上述关系式AX X 可知, 是 A 的特征值, X 是 A 的对应于特征值
31、 的特征向量。根据线性代数知识,当矩阵 A16*16 已知时,可以求出其所有特征值以及各特征值所对应的特征向量,并由此得到各球队的强弱系数 X 或者排名得分 Y 。 为求解确保 16 阶矩阵特征向量的正确性,运用 Perron-Frobenius 定理进行计算。 6.3.1.4 Perron-Frobenius 定理 不可分离的非负矩阵 nnA 一定存在一个正的特征值 0r ,它是特征方程的一个单根,其它特征值的模都不超过 0r ,且该“极大”特征值 0r 对应一个坐标全为正数的特征向量。 其推论为, 是其“极大”特征值,向量 e=( 1,1, 1) T则极限 limmmm AeX 存在,且
32、X 就是矩阵 A 的对应于特征值 的非负特征向量,即为所求强弱系数向量。 并设置以下停止条件。 对于给定的允许误差 ,当 | ( 1) ( )mmXX | 时, 取 10-5即可。 (具体算法见附录一) 6.3.2 综合强弱系数排名法 综合强弱系数排名法是依据球队积分数和综合强弱系数的评价模型。构建原理同 2.1.2.1. 16 6.3.3 积分法 积分 法 即采用胜一场得 3分,平一场得 1分,负一场得 0分的积分排名方法 。但由于这种方法 没有考虑到来源 一,所以会具有很多来自来源一的偏差。 6.4 偏差度 图 6-1 为了体现多维空间中两个点之间的真实距离,我们 用欧式距离表示偏差度。
33、d(A,B) = (|ai bi|2ni=1)1/2 而 当比赛轮次 过小时,球队进行的比赛数据过少,特征向量法失去运用意义,所以这里取轮次大于 5统计。 (具体算法见附录二) 从曲线图 , 我们能看出 : 轮次 较优方法 第 5 到 10 轮 综合强弱系数排名法 进攻强弱系数排名法 第 10 到 20 轮 综合强弱系数排名法 第 20 到 30 轮 综合强弱系数排名法 积分 法 表 6-1 17 即 ,在比赛前期还是采用带强弱系数的排名法比较好,因为可以解决不完全信息的问题,而在后期,因为积分法最终将接近 0,所以采用积分 法比较好。而进攻强弱系数浮动比较大是因为进攻强弱系数会受到战术、打法
34、风格的影响,比如有些球队侧重进攻或侧重防守,又或者有些球队是被迫防守。 6.5 实力排名 根据上文的阐述,在第九轮时选用综合强弱系数排名法较为科学合理。 我们计算了前八轮中以队伍积分数为矩阵的综合强弱系数,并由此给队伍排名。 实力排名 球队 综合强弱系数 1 上港 0.0937 2 鲁能 0.0871 3 恒大 0.0766 4 国安 0.0736 5 富力 0.0717 6 苏宁 0.0711 7 申花 0.0706 8 华夏 0.0635 9 人和 0.0615 10 斯威 0.0599 11 泰达 0.0593 12 亚泰 0.0582 13 权健 0.0494 14 大连 0.0356
35、 15 建业 0.0348 16 恒丰 0.0335 表 6-2 6.6 模型评价 结果表明,积分法没有考虑到不完全竞争带来的偏差,也就是 d 的第一个来源。我们的算法通过加权具有规避不完全信息带来的偏差的优越性。 三种评价算法,在比赛进程过半(即15 轮之后)不完全信息偏差度都显著呈减小趋势,验证了我们对于不完全信息偏差度的定义与假设,体现了偏差度概念的合理性。 18 七、问题三的模型建立与求解 7.1 问题 假设 球队的打法风格是由每个队员共同参与构成的,即每个球员都对战术打法做出了不可忽略的贡献。 7.2 评估外援的重要程度 我们从两个方面评估中超赛事中外援的重要程度 外援对球队多维度实
36、力的贡献度以及外援对球队打法的影响。 7.2.1 外援对球队多维度实力的贡献度 在评估外援对球队多维度实力的贡献度时,我们首先通过主成分分析法确定维度,即球员实力的代表性方面。 以球员的统计数据作主成分分析,提取评判球员的指标。选取的指标如下:进球、射门、射正、传球、关键传球、拦截、抢断、解围、助攻、黄牌。 我们运用 SPSS 对影响指标进行 KMO 检验 和巴特利特球形检验 ,测试结果见表。对技术指标 KMO 统计量为 0.667,相关矩阵的卡方检验结果为 451.695,显著性水平 p0.05,说明技术指标变量适合做主成分分析。 KMO 取样适切性量数。 0.667 Bartlett 的球
37、形度检验 上次读取的卡方 451.695 自由度 45 显著性 0.000 表 7-1 KMO 和巴特利特检验 组件 初始特征值 旋转载荷平方和 总计 方差百分比 累积 % 总计 方差百分比 累积 % 1 3.601 36.014 36.014 2.907 29.068 29.068 2 2.933 29.326 65.339 2.832 28.318 57.385 19 3 1.093 10.929 76.268 1.888 18.883 76.268 4 .916 9.160 85.428 5 .617 6.169 91.597 6 .294 2.943 94.540 7 .267 2.6
38、74 97.214 8 .134 1.345 98.559 9 .109 1.090 99.648 10 .035 .352 100.000 表 7-2总方差解释 组件 P1 P2 P3 进球 F1 .876 -.088 -.115 射门 F2 .902 .223 -.145 射正 F3 .953 .151 -.160 传球 F4 .011 .851 .338 关键传球 F5 .417 .718 -.262 拦截 F6 -.296 .434 .797 抢断 F7 -.150 .865 .249 解围 F8 -.166 -.055 .858 助攻 F9 .242 .675 -.381 黄牌 F1
39、0 .219 .341 .259 表 7-3最大方差旋转后因子载荷矩阵分析表 运用 Kaiser标准化的方差最大正交旋转法 ,以特征值大于 1 为标准选择主成分,由表 2得出, 有 3项主成分累计贡献率 76.268%, 说明这 3项主成分基本包含了全部指标 具有的信息。由此,我们提取这 3项指标进行主成分分析。 得到以下三个指标:球员进攻及突破的实力;球员传控及助攻的实力;球员防御及反击的实力。以方差贡献度为主成分的权重,是确定球队整体实力的衡量标准。 外援对团队的贡献度体现在三个维度即进攻及突破的实力、传控及助攻的实力、防御及反击的实力上。 20 68.31% 62.75% 56.72%
40、72.51% 87.84% 44.57% 72.33% 72.11% 55.38% 63.87% 56.58% 50.31% 56.78% 83.10% 80.24% 90.35% 40.38% 28.13% 23.29% 34.66% 36.16% 22.69% 31.87% 23.82% 20.63% 33.69% 36.71% 29.86% 28.09% 28.19% 25.66% 21.87% 31.96% 26.75% 20.56% 30.36% 29.41% 21.86% 27.54% 20.04% 19.91% 29.75% 32.12% 29.50% 26.80% 25.75%
41、 22.21% 17.27% 40.01% 28.91% 24.03% 34.83% 36.81% 23.31% 32.11% 24.79% 21.70% 33.54% 36.27% 30.22% 28.62% 29.39% 26.27% 22.41% 0.00% 20.00% 40.00% 60.00% 80.00% 100.00%上港 鲁能 恒大 国安 申花 苏宁 富力 斯威 亚泰 华夏 人和 泰达 权健 建业 恒丰 大连 外援对球队三维实力的贡献率 整体 防御及反击 传控及助攻 进攻及突破 图 7-1 21 从图中可以看出,总体来说前锋的贡献度较大 。 以下是 以 广州富力队和天津权健队
42、 中 具体 球员为例的贡献比例: 图 7-2 图 7-3 我们可以看到 , 球队聘请的外援的综合能力都不错 , 进攻及突破的实力 会比较突出,有利于球队得分。 7.3 外援对球队打法的影响 00.10.20.30.4进攻及突破 传控及助攻 防御及反击 外籍球员对球队三维实力贡献率 广州富力 扎哈维 雷纳迪尼奥 乌索 00.050.10.150.20.250.3进攻及突破 传控及助攻 防御及反击 外籍球员 对球队 三维 实力 贡献 率 天津权健 莫德斯特 帕托 维特塞尔 权景元 22 7.3.1 背景介绍 由于不同的地区文化、种族特点、身体条件以及地理因素,不同地区和国家对于足球的运动特征以及价
43、值观不尽相同,从而形成了不同的风格流派和打法理念。而外援,作为接受与国内不同足球文化思维和打法训练的球员,将给球队打法带来新的思路和创意,甚至能决定一个球队的打法 。 3 7.3.2 建立模型 基于变异系数法的评价球员对球队打法影响的模型 为了衡量外援对于球队打法的影响,我们选取几种较为典型的打法作为研究对象,通过已有的研究获得与这些打法直接相关的技术型指标,在已知球队所有球员的指标的基础上通过变异系数法确定指标与打 法评分的权重,通过计算所有球员在各种打法 4上的技术评分,分析得到外援对该打法的影响度。 打法类别 对应的技术指标 外围进攻的技术型打法 远射数、传中数 争取对高点控制的控制型打
44、法 头球成功数、传球数、进球数 多样化得分的进攻型打法 控球率、射门数、角球数、任意球数 防守反击型打法 进球数、黄牌数 表 7-4 四种较典型打法与其相关技术指标 对一支队伍来说,假设我们知道若干次比赛中其所有球员和球队总的技术指标:远射数 L1( m,k)、传中数 L2( m,k)、头球成功数 L3( m,k)、传球数 L4( m,k)、进球数 L5( m,k)、控球率 L6( m,k)、射门数 L7( m,k)、角球数 L8( m,k)、任意球数 L9( m,k)、进球数 L10( m,k)、黄牌数 L11( m,k)。其中 m表示第 m支球队,k=0表示整个球队 ,k=1,2, ,n表
45、示球队的第 n个球员。 7.3.3 变异系数法 变异系数法( Coefficient of variation method)是一种直接利用各项指标所包含的信息,通过计算得到指标的客观的权重。基本做法是:在评价指标体系中,指标取值差异越大的指标,由此反映被评价单位的差距。 由于评价指标体系中的各项指标的量纲不同,不宜直接比较其差别程度。为了消除各项评价指标的量纲不同的影响,需要用各项指标的变异系数来衡量各项指标取值的差异程度。各项指标的变异系数公式如下: ( 1 , 2 , , )iiiV i nx L 式中: iV 是第 i 项指标的变异系数、也称为标准差系数; i 是第 i 项指标的23
46、标准差 ; ix 是第 i 项指标的平均数。 各项指标的权重为: 1ii niVWV 7.3.4 模型求解 以外围进攻的技术型打法为例,由十六支球队所有球员的远射数 L1( m,k)、传中数 L2( m,k)指标数据计算得到指标对应的 L1、 L2、 L1、 L2,则球员(或球队)的远射数 L1( m,k)和传中数 L2( m,k)指标对应的变异系数: VL1 = L1L1 VL2 = L2L2 指标的权重为: WL1 = VL1VL1WL2 = VL2VL2进而得到单个球员(或球队)的外围进攻的技术型打法得分 : S1(m,k)= (VLi2i=1 Li(m,k) 类似地,可以得到单个球员(
47、或球队)的争取对高点控制的控制型打法得分 : S2(m,k)= (VLi5i=3 Li(m,k) 即对某种打法 v,对单个球员(或球队)的得分可以表示为: Sv(m,k)= (VLij+li=j Li(m,k) 其中 m表示第 m 支球队, k=0表示整个球队 ,k=1,2, ,n表示 n个球员。 Lj到Lj+l为此打法相关的指标, l为指标个数。 对每支球队中的球员,可以计算其在不同种打法上的贡献度: Pv(m,k)=Sv(m,k)Sv(m,0)( k=1,2, ,n表示 n 个球员) 24 当 k=f表示外籍球员时,可依次评估外援对于球队某种打法的影响。 7.3.5 模型优劣点 评价 优点
48、 : 一、球员在比赛中的技术指标对于评价目标 球队打法来说关系 比较模糊 ,采用变异系数法评价进行评定是比较合适的 ,用于 各个构成要素内部指标权数的确定 ,在很多实证研究中也多数采用这 大连 法。 二、球员在比赛中的技术指标有些在数值上相差较大,如进球数和传球数;而像控球率这种指标又与数量指标量纲不同。变异系数作为一个无量纲量,在比较两组量纲不同或均值不同的数据时,可以用变异系数作为比较的方法。 不足 : 一、当某些指标的平均值接近于 0的时,一些微小的扰动会对变异系数产生巨大影响,即模型在某些指标的平均值接近于 0时可能具有风险。 二、变异系数对于指标的具体意义重视不够,且没有类似于均值的置信区间的工具去评价误差。 三、 本文只研究了部分与 球队多维度实力 相关的 指标 , 部分外籍球员的特殊打法的特征指标 存在 在 本文 中 没有 研究到,本文忽略了这一情况。 八、 模型评价 科学性: 本文研究时采用了 多指标降维分析 的 思想 ,每一层的筛选合理且有效。 创新性:本文没有将一种排名方案定为绝对准确的排名方案,而是综合考虑了随比赛进行时不同评价方案的误差来源,给循环比赛中球队的排名方案提供了新的思路。 普适性:本文研究所使用的方法适用于同类问题的研究,对于少样本 多维度 的特征提取具有推广价值。 25 九 、参考文献 1潘红玲 . 第 14 届欧洲杯足球赛各项