足球的数据是什么?
其实关于这个有很多有意思的话题,比如有球探会去研究一个球员的个人数据跟球队的战绩是否有关系等等(当然这个问题在篮球领域也有人在讨论) 简单介绍一下背景吧:我是从2013年才开始接触足球数据分析的,之前都是看比赛和一些简单的统计,那个时候我还在德国柏林,经常利用休息时间和朋友去看联赛以及杯赛的比赛(德甲和德国杯是最常去的)。 刚开始只是觉得很神奇,因为我自己是个球迷,所以能看的出来一些比赛的胜负手,但是当时还不会用数据来判断一场比赛的走势或是预判比分什么的;然后我就开始找资料自己学习,大概学了一两个月之后我能看懂一些比较基础的报表了。
现在的话我每天都会做一些数据分析的工作。 首先,我想说的是“什么是数据”,对于这个问题我还没有一个很明确的定义.... 我理解的数据应该是一种用来分析事物的信息资源形式。举个例子:我们日常使用的Windows系统是一种软件信息资源的形式、一本书的目录是一种信息资源形式(其实书本上的内容也是一种信息资源的呈现方式哈~)、微信、微博、知乎、豆瓣等社交网站是另外一种信息资源的形式…… 所以我可以这样认为,如果我要收集数据的话,那么我就要知道我想要分析的“事物”是什么——也就是说我的研究对象到底是什么!
接着,就是如何获取这些数据的问题了——也就是数据的来源。 现在国内外的数据库种类繁多,而且很多数据库都是有付费版的,也有免费的试用版。在这里就不介绍数据库的事情了,可以百度一下。一般来说,体育相关的数据主要分三类: 1.第三方数据统计公司:他们大多有自己的网页,你可以直接通过搜索引擎找到(注意:有些公司的网站是没有中文版本的哦~),比如说国外的Elo Ratings (欧冠夺冠指数)、SofaScore(足球比分网)、Opta Sports (欧洲足联官网合作伙伴之一) ;国内的踢球吧(中国首家足球数据库平台)、懂球帝(APP) 等等……
2.电视台或门户网站:这类网站一般都会有自己的网页或客户端,你可以在百度上搜索它们的名称就可以找到了。
3.一些游戏公司的网页:以FIFA为例,他们的官方网站上有专门的球员数据统计页面,你可以输入想要查询的球员名字来进行查找。 以上几种渠道我都用过或者曾经有过使用经历。
最后说一下数据的处理过程和方法——这也是我现在正在学习的知识。 我一般会先整理好所有数据(包括第三方的数据和电视转播中产生的数据),然后再进行下一步的分析。这里我只讲我常用的方法:
1.Excel 这种方法比较适合处理一些小量的数据,并且需要一定的统计知识作为基础(例如平均数、方差等概念)。 Excel虽然好用,但是却不能很好地处理大量的小量数据——这一点对数据分析师来说是非常重要的,毕竟没有哪个分析师愿意整天对着一堆数字做统计工作。
2.R语言 R语言是我常用的数据分析工具,它最大的特点是能够很好的处理大量的数据并生成图形结果供用户参考和分析。 但是R语言并不是万能的,也有一些不足之处——比如它的可视化功能并不像Excel那样强大,而且有些代码还需要编程才能解决遇到的问题。