当前位置: 首页 > news >正文

太原在线网站建设营销型网页设计

太原在线网站建设,营销型网页设计,商务网站建站,系统优化工具文章目录 4.1 基本流程4.2 划分选择4.2.1 信息增益4.2.2 增益率4.2.3 基尼指数 4.3 剪枝处理4.3.1 预剪枝4.3.2 后剪枝 4.4 连续与缺失值4.4.1 连续值处理4.4.2 缺失值处理 4.5 多变量决策树4.6 阅读材料 4.1 基本流程 决策树也称判定树,是一类常见的机器学习方法。…

文章目录

  • 4.1 基本流程
  • 4.2 划分选择
    • 4.2.1 信息增益
    • 4.2.2 增益率
    • 4.2.3 基尼指数
  • 4.3 剪枝处理
    • 4.3.1 预剪枝
    • 4.3.2 后剪枝
  • 4.4 连续与缺失值
    • 4.4.1 连续值处理
    • 4.4.2 缺失值处理
  • 4.5 多变量决策树
  • 4.6 阅读材料

4.1 基本流程

  • 决策树也称判定树,是一类常见的机器学习方法。
  • 决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。
  • 决策的最终结论对应了我们所希望的判定结果,决策过程中提出的每个判定问题都是对某个属性的测试,每个测试结果考虑范围是在上次决策结果限定范围内。
  • 叶结点对应于决策结果,其他每个结点对应于一个属性测试。
  • 决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循分而治之的策略。
  • 在这里插入图片描述

4.2 划分选择

4.2.1 信息增益

“信息熵”是度量样本集合纯度常用的一种指标。
在这里插入图片描述

信息增益
在这里插入图片描述
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。因此,可用信息增益来进行决策树的划分属性选择。
在这里插入图片描述

4.2.2 增益率

  • 信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好带来的不利影响,著名的C4.5决策树算法不直接使用信息增益,而是使用增益率来选择最优划分属性。
  • 增益率定义为:在这里插入图片描述

增益率准则对可取数目较少的属性有所偏好,因此C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

4.2.3 基尼指数

CART决策树使用“基尼指数”来选择划分属性。数据集D的纯度可用基尼值来度量:
在这里插入图片描述
Gini(D)越小,数据集的纯度越高。
属性a的基尼指数定义为:
在这里插入图片描述
在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即:
在这里插入图片描述

4.3 剪枝处理

剪枝是决策树学习算法对付过拟合的手段。

留出法:预留一部分数据用作验证集以进行性能评估。

4.3.1 预剪枝

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。

4.3.2 后剪枝

后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若该结点对应得子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

4.4 连续与缺失值

4.4.1 连续值处理

由于连续属性的可取数目不再有限,因此不能直接根据连续属性可取值来对结点进行划分。此时,连续属性离散化技术可派上用场。最简单的策略是采用二分法对连续属性进行处理,这正是C4.5决策树算法中采用的机制。

4.4.2 缺失值处理

离散值:众数填充、相关性最高填充。

连续值:中位数填充、相关性最高的列做线性回归进行估计。

4.5 多变量决策树

4.6 阅读材料

http://www.ds6.com.cn/news/114360.html

相关文章:

  • 土耳其网站后缀百度推广开户费
  • 个人网站开发需求分析百度收录入口提交查询
  • 自然资源网站建设方案营销网站建设创意
  • 宣传网站怎么做长春seo顾问
  • 网站建设仿站企业公司天眼查询个人
  • 武汉网站制作制作互联网全网营销
  • 受和攻不停的做漫画网站个人网站免费域名和服务器
  • 石家庄住房建设厅网站关键词优化营销
  • 网站开发不用mvc行不行2022年最新十条新闻
  • 局域网如何做视频网站建设东莞网站建设制作
  • dedecms手机网站插件谷歌排名推广
  • 宁波网站优化查排名网站
  • 做网站公司哪个好自媒体十大平台
  • 建一个大型网站需要多少钱千锋教育培训机构学费
  • python基础教程电子书seo是干什么的
  • 江门学做网站课程人民日报新闻
  • dedecms 调用 两个网站链接式友谊
  • 网站开发各个文件神马seo教程
  • 秦皇岛哪里能做网站企业如何进行网络推广
  • 提示网站有风险汕头网站建设方案开发
  • 太原网站建设总部地址网站推广策划方案
  • 长沙装修网站排名电子商务网站推广策略
  • 珠海市品牌网站建设平台上海网络推广需要多少
  • 网站和主机有什么不同北京网站建设开发公司
  • 闵行虹桥网站建设实时新闻最新消息
  • 关闭WordPress文章摘要seo网络优化公司
  • 调用wordpress数据库id天津优化代理
  • wordpress网银插件下载宁波seo外包服务平台
  • 有什么做网站的国企app推广软件
  • 深圳网站建设公司推荐百度秒收录蜘蛛池