科比老大职业生涯数据预测(基于随机森林模型)

1.实验背景

     
科比·布莱恩特,作为NBA历史上最伟大的篮球运动员之一,他的职业生涯充满了无数精彩瞬间。

科比于1996年以13顺位的选秀身份进入联盟,一生都效力于洛杉矶湖人队。于2016年宣布退役,职业生涯获奖无数,5次NBA总冠军,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯总得分超33000分,未来的名人堂球员等。在今年的1月26日,科比乘坐的私人飞机不幸失事,科比和二女儿吉安娜永远地离开了我们,这对无数球迷是一个莫大的打击。虽然科比离开了我们,但曼巴精神将激励着一代又一代的年轻人去追逐自己的梦想。

本实验旨在通过分析科比职业生涯的比赛数据,深入挖掘他的投篮技巧和比赛表现,从而更好地理解他的篮球艺术和竞技水平。同时,本实验也将帮助机器学习学习者掌握数据分析的基本技能,包括数据预处理特征工程模型建立参数调整等。


2.实验目的


1. 掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法。
2. 学会数据预处理的方法,包括数据清洗、数据合并、数据转换等。
3. 学会特征工程,包括特征提取、特征选择、特征转换等。
4. 学会建立随机森林模型,并进行模型参数调整,选择最优参数。
5. 学会对测试数据进行预测,并保存模型结果。

3.数据集说明

该数据集收录了自96赛季~2016赛季,科比整个职业生涯的比赛记录,共有30697条数据。每一条数据都是一次出手记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进行分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进行建模,来对不带标签的5000条数据进行预测。


4.实验步骤


4.1数据读取与描述性统计

读取科比职业生涯比赛数据集,对数据进行简单的描述性统计分析,了解数据的分布情况。

#导入此数据分析任务中要使用的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns;sns.set()
%matplotlib inline
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import KFold
raw = pd.read_csv('kobe_data.csv')
raw.head()

让我们来看看数据集长啥样:

由上述结果可以看出,该数据集共有25个特征,其中24个特征都是完整的,只有shot_made_flag这个特征是存在缺失值的。

所以接下来我们会将数据集切分为两部分,含有shot_made_flag的数据集作为训练集,缺失shot_made_flag的数据集作为测试集。

通过对训练集进行建模,来预测测试集上的shot_made_flag值。

4.2单变量分析

(1)查看科比出手类型的分布,绘制出手类型的次数统计图。

#查看科比出手类型的分布
plt.figure(figsize = (10,6))
raw['combined_shot_type'].value_counts().plot(kind = 'bar')
plt.xlabel('出手类型');plt.ylabel('出手次数');plt.title('科比职业生涯不同出手类型的次数统计')

由上图可知,科比最喜欢的进攻方式就是跳投+肘击,紧接着是上篮。

(2)查看科比两分球,三分球的出手数,绘制出手数的柱状图。

#查看科比两分球,三分球的出手数
plt.figure(figsize = (8,6))
raw['shot_type'].value_counts().plot(kind = 'bar')
plt.xlabel('远投还是中距离');plt.ylabel('出手次数');plt.title('科比职业生涯远投和中距离的出手数')
plt.xticks(rotation = 0)

由上图可以看出,科比的进攻手段主要以中距离进攻为主,像我们比较熟悉的急停跳投,翻身跳投,干拔跳投等。


(3)查看科比出手距离的分布,绘制出手距离的直方图。

#查看科比出手距离的分布
plt.figure(figsize = (8,6))
raw['shot_distance'].hist(bins = 100)
plt.xlabel('出手距离');plt.ylabel('出手次数');plt.title('科比出手距离的分布')


(4)绘制出手距离的箱线图

这里简单介绍一下箱线图

箱线图(Box Plot),又称为盒须图盒式图箱形图,是一种用于展示一组数据分布情况的统计图表。它由五个数值点组成,分别是:最小值(下边缘)(Min)、下四分位数(Q1)、中位数、上四分位数(Q3)和最大值(上边缘)(Max)。箱线图能够反映数据的分散情况,展示数据集的对称性、分布的集中趋势以及离散程度,同时还能检测出异常值。

箱线图的组成部分如下:

中位数(Med):数据集的中心位置,将数据分为上下两部分。
箱体(Box):箱子由下四分位数(Q1)和上四分位数(Q3)之间的距离构成,表示数据的中间50%的分布范围。箱体的高度(即Q3与Q1之间的距离)被称为四分位距(IQR)。
须(Whisker):从箱体的两侧延伸出来,通常延伸到数据集的最小值和最大值,但在处理异常值时,可能会延伸到小于Q1-1.5IQR和大于Q3+1.5IQR的最近数据点。
异常值(Outlier):在须之外的数据点,通常用圆点表示。这些值被认为是异常或离群的。


箱线图的特点和用途:

直观展示数据分布:通过箱线图,我们可以直观地看到数据的中位数、上下四分位数以及异常值,从而对数据的整体分布有一个快速的了解。
比较多个数据集:通过绘制多个数据集的箱线图,可以方便地比较不同数据集的分布特点。
检测异常值:箱线图能够清晰地展示出数据中的异常值,有助于数据清洗和异常检测。

#绘制出手距离的箱型图
plt.figure(figsize = (6,4))
sns.boxplot(data = raw,y = 'shot_distance')
plt.xlabel('出手距离');plt.ylabel('出手次数');plt.title('科比出手距离的分布')

由上图可以看出科比在篮下的出手最多,大约有6000次,大约75%的出手为2分球,25%的三分球。

(5)可视化科比的出手区域,按照不同的标准划分的出手区域

#可视化科比的出手区域,按照不同的标准划分的出手区域
import matplotlib.cm as cm
plt.figure(figsize  = (20,10))

def scatter_plot_by_category(feat):
    alpha = 0.1
    gs = raw.groupby(feat)
    cs = cm.rainbow(np.linspace(0,1,len(gs)))
    for g,c in zip(gs,cs):
        plt.scatter(g[1].loc_x,g[1].loc_y,color = c,alpha = alpha)
#shot_zone_area出手区域,左侧,右侧,中场,后场等
scatter_plot_by_category(raw['shot_zone_area'])
plt.title('shot_zone_area')

#shot_zone_basic另一种划分出手区域的方式,中线,禁区,油漆区,左侧底角,右侧底角等
plt.subplot(1,3,2)
scatter_plot_by_category(raw['shot_zone_basic'])
plt.title('shot_zone_basic')

#shot_zone_range出手区域的距离,小于8英尺,8-16英尺,16-24英尺,24英尺以上等
#三分球(22英尺以上)
plt.subplot(1,3,3)
scatter_plot_by_category(raw['shot_zone_range'])
plt.title('shot_zone_range')

4.3双变量分析

(1)查看科比的出手命中率,绘制命中率的柱状图。

#查看科比的出手命中率
plt.figure(figsize = (6,4))
kobe['shot_made_flag'].value_counts(normalize = True).plot(kind = 'bar')
plt.xlabel('命中情况');plt.ylabel('命中个数');plt.title('科比的出手命中率')

该样本只是整个数据集中的部分样本,不能反映出其职业生涯的真实命中率。 可以看出科比的出手命中率大约为44%,还是挺高的命中率。

(2)观察不同出手类型与命中率之间的关系,绘制条形图。

#观察不同出手类型与命中率之间的关系

sns.barplot(data = kobe,x = 'combined_shot_type',y = 'shot_made_flag')

由上图可知,命中率从高往低依次为:扣篮-擦板-上篮-勾手-跳投-补篮

(3)观察两分球与三分球的命中率

#观察两分球与三分球的命中率

sns.barplot(data = kobe,x = 'shot_type',y = 'shot_made_flag')

kobe.groupby('shot_type')['shot_made_flag'].value_counts(normalize = True)

上述结果可以看出科比的两分球命中率为47.7%,三分球的命中率为32.9%。

(4)观察出手距离与命中率之间的关系

#观察出手距离与命中率之间的关系
sns.scatterplot(data = kobe, x = 'shot_distance',y = 'shot_made_flag' )

sns.violinplot(data = kobe, y = 'shot_distance',x = 'shot_made_flag' )

由上图可以看出,出手距离越远,命中率越低,出手超过43英尺的都没有命中。

4.4数据预处理和特征工程


删除对最终预测结果无影响的id特征。
创建一个新的特征time_remaining,用于替代minutes_remaining和seconds_remaining,删除这两个特征。
将season数据处理为更简单易懂的格式。
删除lat,lon特征,因为它们与loc_x,loc_y表达的含义相同。
删除action_type特征,因为它与combined_shot_type表达的含义相近。
保留一个shot_zone_area特征,因为shot_zone_area,shot_zone_basic,shot_zone_range表达的含义相同。
删除team_name和game_date特征,因为它们对最终的预测结果没有影响。
保留opponent特征,因为matchup和opponent表达的是相同的意思。

#删除对最终预测结果无影响的id特征
drop_ids = ['game_event_id','game_id','team_id','shot_id']
for feature in drop_ids:
    raw = raw.drop(feature,axis = 1)
#创建一个新的特征time_remaining,用于替代minutes_remaining和seconds_remaining
raw['time_remaining'] = raw['minutes_remaining']*60 + raw['seconds_remaining']
#删除minutes_remaining和seconds_remaining特征
raw = raw.drop(['minutes_remaining','seconds_remaining'],axis = 1)
raw['season'].unique()
#将season数据处理为更简单易懂的格式
raw['season'] = raw['season'].apply(lambda x:int(x.split('-')[1]))
raw['season'].unique()
#lat,lon,loc_x,loc_y表达的是相同的含义,删除lat,lon特征
raw = raw.drop(['lat','lon'],axis = 1)
#action_type和combined_shot_type表达的含义相近,删除action_type
raw = raw.drop(['action_type'],axis = 1)

#shot_zone_area,shot_zone_basic,shot_zone_range表达的也是相同的含义,保留一个就行
raw = raw.drop(['shot_zone_basic','shot_zone_range'],axis = 1)

#team_name和game_date对最终的预测结果也没什么影响,删除这两个特征
raw = raw.drop(['team_name','game_date'],axis = 1)

#matchup和opponent表达的是相同的意思,保留opponent就行
raw = raw.drop('matchup',axis = 1)
#查看当前数据集的信息
raw.info()

       

4.5划分训练集和测试集

将带有标签的数据作为训练集,不带标签的数据作为测试集。

#划分训练集测试集
train_data = raw[pd.notnull(raw['shot_made_flag'])]
test_data = raw[pd.isnull(raw['shot_made_flag'])]

print('训练集的大小:',train_data.shape)
print('测试集的大小:',test_data.shape)

                                       

由于该测试集没有标签,所以我们需要通过交叉验证的方式将训练集分为训练样本和验证样本,用验证集来评估模型的好坏。

最终选取最好的模型,对测试样本进行预测。

4.6建立随机森林模型并进行调参

在这里先简单介绍一下随机森林模型:

随机森林(Random Forest)是一种基于决策树的集成机器学习算法,它通过在训练过程中引入随机性来提高预测性能,并且对过拟合具有很好的鲁棒性。随机森林由多个决策树组成,每个决策树都是在一个随机子集上进行训练的。这些决策树共同构成了一个“森林”,用于对新数据进行预测。

随机森林模型的训练过程如下:

①随机抽样:从原始数据集中进行有放回的随机抽样,得到多个样本集。
②决策树训练:对于每个样本集,训练一个决策树模型。在训练过程中,每个决策树节点在选择分裂特征时,只考虑一个随机子集的所有特征。
③聚合预测:对于新的数据点,将所有决策树的预测结果进行汇总。对于分类问题,通常采用多数投票法;对于回归问题,通常取所有树预测值的平均值。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import time

#初始化一个随机森林模型
RFC = RandomForestClassifier()

#使用网格搜索gridsearchcv寻找最佳的模型参数
param_grid = {'n_estimators':[40,80,120,160,200],
             'max_depth':[3,4,5,6,7,8,9,10],
             'min_samples_split':[3,4,5,6,7]}
grid = GridSearchCV(RFC,param_grid = param_grid,cv = 5,verbose = 2,n_jobs = -1)
t1 = time.time()
grid.fit(train_features,train_labels)
t2 = time.time()
print('模型的训练时间{}'.format(t2 - t1))


初始化一个随机森林模型。
使用网格搜索gridsearchcv寻找最佳的模型参数。
训练模型并找出最佳的模型参数。

5.实验总结

本实验通过分析科比·布莱恩特职业生涯的比赛数据,深入挖掘他的投篮技巧和比赛表现,帮助我们地理解他的篮球艺术和竞技水平。同时,本实验也帮助机器学习入门者掌握数据分析的基本技能,包括数据预处理、特征工程、模型建立和参数调整等。

What can I say

manba out!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/772098.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

99. 岛屿数量

题目描述:给定一个由 1(陆地)和 0(水)组成的矩阵,你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成,并且四周都是水域。你可以假设矩阵外均被水包围。 输入描述&#xff1a…

EXTI寄存器,AFIO的简洁,EXTI配置的流程

一,AFIO简介 AFIO是Alternate Function Input/Output 的缩写,表示复用功能IO,主要用于实现IO端口的复用功能以及外部中断的控制 STM32外设有很多I/O以及内置外设(如12C,ADC,ISP,USART等)。为节省引出管脚的…

命令行运行git reflog(reference log)报错的解决办法

文章目录 1. 检查 Git 是否已安装2. 检查 PATH 环境变量3. 重新安装 Git 在Git中, reflog的英文全称是 “ reference log”。意思是 引用日志(参考日志)。它记录了本地仓库中HEAD和分支引用所指向的提交的变更历史。这包括了你所有的提交&…

经典低功耗四通道运算放大器LM324

前言: SOP14封装LM324 这个LM324运放有几十年的历史了吧?很普通,很常用,搞电路的避免不了接触运放,怎么选择运放,是工程师关心的问题吧? 从本文开始,将陆续发一些常用的运放&#xf…

【AI学习】无线AI的问题和挑战

无线AI,即无线人工智能,是指内生于未来(6G)无线通信系统并通过无线架构、无线数据、无线算法和无线应用所呈现出来的新的人工智能技术体系。 最近一直在进行无线AI的调研,感觉真的是路漫漫其修远兮。业界有一些探索&a…

【人工智能】--生成对抗网络

个人主页:欢迎来到 Papicatch的博客 课设专栏 :学生成绩管理系统 专业知识专栏: 专业知识 文章目录 🍉引言 🍉GAN 的基本原理 🍈生成器(Generator) 🍈判别器&…

【前端知识】一篇速成 建议收藏

HTML基础概念 正式敲代码之前呢,我们先来看几个概念: 0 静态网页和动态网页 静态网页: 页面的内容和显示效果就基本上不会发生变化了--除非你修改页面代码。 动态网页: 页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的…

解决SeaTunnel 2.3.4版本写入S3文件报错问题

在使用Apache SeaTunnel时,我遇到了一个写入S3文件的报错问题。通过深入调试和分析,找到了问题所在,并提出了相应的解决方案。 本文将详细介绍报错情况、参考资料、解决思路以及后续研究方向,希望对大家有帮助! 一、…

PyTorch - 神经网络基础

神经网络的主要原理包括一组基本元素,即人工神经元或感知器。它包括几个基本输入,例如 x1、x2… xn ,如果总和大于激活电位,则会产生二进制输出。 样本神经元的示意图如下所述。 产生的输出可以被认为是具有激活电位或偏差的加权…

Java通过GeoLite2-City.mmdb 进行IP信息查询地理定位和经纬度筛选。

引入依赖 <dependency><groupId>com.maxmind.geoip2</groupId><artifactId>geoip2</artifactId><version>4.2.0</version> </dependency>下载数据文件&#xff1a;https://download.lin2ur.cn/GeoLite2/ package com.cqclo…

经典递归分析

在前面一篇中, 已经看过许多直观的递归的例子, 在这篇里, 将分析两个经典的递归问题, 阶乘与菲波那契数列数列, 在此过程中, 还将对比递归与循环(迭代)间的异同, 探讨递归与内存中的栈的关系, 以及递归的效率等问题. 如无特别说明, 示例使用的是 Java, IDE 则为 Eclipse. 阶乘(…

Matplotlib 简介

import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel(some numbers) plt.show() 当使用plot只传入单个数组时&#xff0c;matplotlib会认为这是y的值&#xff0c;并自动生成长度相同&#xff0c;但是从0开始的x值&#xff0c;所以这里的x会自动生成为 [0,1,2,…

python自动化办公之BeautifulSoup爬取并解析html文本

用到的库&#xff1a;BeautifulSoup 实现效果&#xff1a;爬取网站内容&#xff0c;拿到html文本并解析html文本 代码&#xff1a; 先爬取 # 先导入requests包 import requests urlhttps://www.baidu.com responserequests.get(url) # 做1个断言&#xff0c;如果执行成功&a…

java的工厂设备管理系统-计算机毕业设计源码16179

摘要 在现代制造业中&#xff0c;高效的设备管理对于确保生产过程的顺利进行至关重要。为了满足工厂对于设备管理的需求&#xff0c;我们设计并实现了一个基于 Java 的工厂设备管理系统。 该系统旨在提供一个全面、可靠且易于使用的解决方案&#xff0c;以帮助工厂有效地管理…

QT截屏,截取控件为图片,指定范围截屏三种截屏方式

项目中我们常用到截取屏幕&#xff0c;Qt给我的们多种方式&#xff1a; 主要有以下三种&#xff1a; 截取全屏&#xff1b;截取控件为图片&#xff1b;指定位置截屏三种截屏方式&#xff1b; 1.截取全屏 常用&#xff1a; 实现&#xff1a; QScreen *screen QGuiApplicat…

【超万卡GPU集群关键技术深度分析 2024】

文末有福利&#xff01; 1. 集群高能效计算技术 随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进&#xff0c;超万卡集群吸需全面提升底层计算能力。 具体而言&#xff0c;包括增强单芯片能力、提升超节点计算能力、基于 DPU (Data Processing Unit) 实现…

波动方程 - 在三维图中动态显示二维波动方程的解就像水面波澜起伏

波动方程 - 在三维图中动态显示二维波动方程的解就像水面波澜起伏 flyfish 波动方程的求解结果通常不是一个单一的数值&#xff0c;而是一个函数或一组函数&#xff0c;这些函数描述了波随时间和空间的传播情况。具体来说&#xff0c;波动方程的解可以是关于时间和空间变量的…

#LinuxC高级 笔记二

makefile gcc gdb makefile 1. 分文件编程 1.1 源文件&#xff1a;.c结尾的文件 包含main函数的.c 包含子函数的.c 1.2 头文件&#xff1a;.h结尾的文件 头文件、宏定义、typedef 、结构体、共用体、枚举、函数声明 include引用时“”和<>的区别&#xff1a; <>去系…

JSON字符串中获取一个指定字段的值

一、方式一&#xff0c;引用gson工具 测试报文&#xff1a; {"account":"yanxiaosheng","password":"123456" } 引入pom <!-- https://mvnrepository.com/artifact/com.google.code.gson/gson --> <dependency><gr…

假设性文档嵌入 HyDE:大模型 + 对比学习,从关键词相似度搜索到语义搜索

假设性文档嵌入 HyDE&#xff1a;大模型 对比学习&#xff0c;从关键词相似度搜索到语义搜索 提出背景流程图解法拆解类比1. 单一文档嵌入空间的搜索2. 指令跟随型语言模型&#xff08;InstructLM&#xff09;的引入3. 生成文档的嵌入编码 提出背景 论文&#xff1a;https://…