随着人类成长和技术发展,体力劳动的程度正在改变,现在重点转向了心智劳动,以执行这种新型的“挖掘”工作。数据挖掘过程包括多个方面,其中关联规则因其对理解客户和推动业务增长的实际贡献而显得尤为重要。是否对精确要求有所了解?是否有兴趣增强知识,以实现客户满意度的指数级增长?是否旨在开发一个与大品牌竞争的更好的推荐系统?以下是数据挖掘中关联规则的关键概念和基本原理的简要介绍。
理解关联规则的本质,即揭示数据内部关系的if/then语句。识别并区分市场篮分析、欺诈检测和推荐系统等应用,展示关联规则的多功能性和实际意义。深入了解关联规则的工作原理,探索基数、支持度、置信度和提升度在预测和评估数据集中关系中的作用。
顾名思义,关联规则是if/then语句,用于识别数据之间的关系或依赖性。它具有适用于数值和非数值分类数据的特性,通常应用于市场篮分析等应用。它可以从关系和事务数据库以及其他数据源中获取数据。关联规则有两个部分:前件或if和后件或then。前件是数据中首先出现的部分,而后件是与前件结合后出现的结果部分。例如,市场篮分析的例子是:“如果客户购买了跑鞋,那么他们也很可能会购买能量棒。”在这里,跑鞋是前件,能量棒是后件。这个例子特别针对健身爱好者群体。
关联规则有广泛的应用。数据挖掘中关联规则的前三个例子是:
市场篮分析:购物组合的一个例子可能是购买酸奶,很可能与购买浆果相关联。这表明了关联规则在分析购买习惯和需求中的重要性。解释的实际使用在于开发合适的组合优惠,优化产品摆放,并增加销售额。
欺诈检测:在这里,组合的使用是识别购买模式、其位置和频率。识别相同有助于标记欺诈活动并采取预防措施。
推荐系统:这些包括从浏览历史和以前的购买中检测使用模式,以预测用户的未来需求。推荐基于此。将使用从市场营销扩展到音乐和基于节目的服务也很重要。
之前用例子解释的关联规则预测是基于基数、支持度和置信度来计算的。基数指的是两个项目之间的关系,随着对象数量的增加而增加。支持度表示陈述的频率,然后置信度告知这些关系的真确频率。通过确定规则来解释关联规则的工作,这些规则支配着组合可能发生的原因和情况。例如,优选的健康且不耗时的早餐选择将酸奶与麦片和浆果结合起来。
通常,在实际情况中,数字变得不切实际。一些统计上独立的项目,购买组合最少的项目,可能在实际使用中以高百分比结合在一起。例如,从统计上看,啤酒和尿布的组合购买机会较少,而现实世界的统计数据却相对较高。统计数据的增加是提升度。
关联规则的有效性主要通过支持度、置信度和提升度来衡量。支持度指的是频率,高支持度表示数据集中数量的普遍性。置信度衡量关联规则的可靠性。高置信度表明A和B是成比例的,因此直接关系增加。提升度比较项目的依赖性。如果统计和实际数字相同,或者前件和后件相同,提升度将是1,相关对象是独立的。如果提升度>1,并且前件大于后件,对象依赖于彼此。此外,如果后件大于前件且提升度<1,组合对彼此产生负面影响。
生成关联规则的三种算法如下: