EisenHao's Note

Record growth and enjoy life!

0%

1. Apriori算法简介

  • Apriori是一种在事务数据库上进行频繁项集挖掘和关联规则学习的算法。
  • 它通过识别数据库中的频繁单项,并将经常出现的项扩展到越来越大的项目集。
  • Apriori确定的频繁项目集可用于确定关联规则,能够显示出数据库中项的一般趋势,故常应用于诸如市场购物栏分析的领域中(决策分析)。
展开阅读全文 »

1. 集成学习AdaBoost算法简介

AdaBoost全称是adaptive boosting,该算法基本思想:多个结构较为简单,分类或预测精度较低的弱学习算法可以通过某种方式结合成具有较强学习能力的强学习算法。根据统计学习方法的三要素,AdaBoost 方法=加法模型+指数损失函数(策略)+前向分步 算法。

展开阅读全文 »

1. ID3算法简介

  • ID3算法最早是由罗斯昆(J.Ross Quinlan)于1975年在悉尼大学提出的一种分类预测算法,算法的核心是“信息熵(Information entropy)”。
  • ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。
展开阅读全文 »

1. DBSCAN算法简介

  • 基于密度的噪声应用空间聚类(DBSCAN)是Martin Ester,Hans-Peter Kriegel,JörgSander和Xiaowei Xu于1996年提出的数据聚类算法。
  • 它是一种基于密度的聚类算法:给定一些空间中的一组点,它将紧密堆积在一起的点(具有许多邻近邻居的点)组合在一起,标记为单独位于低密度区域的离群点(最近的点)邻居们太远了)。
  • DBSCAN是最常见的聚类算法之一,也是科学文献中引用最多的算法。
  • 2014年,该算法在领先的数据挖掘会议KDD上获得了时间奖的测试(在理论和实践中获得了大量关注的算法奖)。
    展开阅读全文 »