更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
我们使用Apriori算法找出所有频繁项集,最小支持度minSup=60%=60/100=0.6,总事务数为4,因此最小支持度计数为: $$min\_count = \lceil0.6\times4\rceil = \lceil2.4\rceil = 3$$ 即一个项集必须出现在至少3个事务中才被认为是频繁的。 步骤1:生成候选1-项集C1,并计算支持度 所有出现的物品:A,B,C,D,E,F 计算每个物品的支持度: - A:出现在T100,T200,T300,T400→支持度=4/4=1.0≥0.6→频繁 - B:出现在T100,T200,T300,T400→支持度=4/4=1.0≥0.6→频繁 - C:出现在T200,T300→支持度=2/4=0.5<0.6→不频繁 - D:出现在T100,T200,T400→支持度=3/4=0.75≥0.6→频繁 - E:出现在T200,T300→支持度=2/4=0.5<0.6→不频繁 - F:出现在T100→支持度=1/4=0.25<0.6→不频繁 因此,频繁1-项集L1: $$L_1 = \{A, B, D\}$$ 步骤2:生成候选2-项集C2 从L1中生成所有组合: - {A, B} - {A, D} - {B, D} 计算每个2-项集的支持度: - {A, B}:出现在T100,T200,T300,T400→4次→支持度=4/4=1.0≥0.6→频繁 - {A, D}:出现在T100,T200,T400→3次→支持度=3/4=0.75≥0.6→频繁 - {B, D}:出现在T100,T200,T400→3次→支持度=3/4=0.75≥0.6→频繁 因此,频繁2-项集L2: $$L_2 = \{\{A, B\}, \{A, D\}, \{B, D\}\}$$ 步骤3:生成候选3-项集C3 从L2中生成所有可能的3-项集: - {A, B, D}(由{A,B},{A,D},{B,D}组合生成) 检查其子集是否都在L2中: - 子集{A,B}∈L2 - 子集{A,D}∈L2 - 子集{B,D}∈L2 因此可以生成候选{A, B, D} 计算其支持度: - {A, B, D}出现在哪些事务中? T100:{F, A, D, B}→包含A,B,D→是 T200:{D, A, C, E, B}→包含A,B,D→是 T300:{C, A, B, E}→缺少D→否 T400:{B, A, D}→包含A,B,D→是 →出现3次→支持度=3/4=0.75≥0.6→频繁 因此,频繁3-项集L3:此处可理解为{A, B, D}(与L1做区分) $$L_3 = \{\{A, B, D\}\}$$ 步骤4:生成候选4-项集C4 从L3中生成候选4-项集: 需要至少4个元素,但当前只有3个元素,无法生成4-项集。 因此,L4=∅ 结论:最大的频繁项集是L3={A, B, D} 列出所有强关联规则(支持度s和置信度c),要求minConf=80%=0.8 我们需要从频繁项集L1,L2,L3中生成所有可能的规则,并计算置信度。 从L1开始: 单个元素不能生成规则(规则需形如X→Y,X≠Y) 从L2开始: L2={ {A,B}, {A,D}, {B,D} } 对每个2-项集,生成两个规则: 1. {A,B}→规则: - A→B - B→A 计算置信度: - A→B:conf=P(B|A)=support(A,B)/support(A)=(4/4)/(4/4)=1.0≥0.8→强规则(4/4指:A在项集数量出现的次数/项集数量,其余分数如此) - B→A:conf=P(A|B)=support(A,B)/support(B)=(4/4)/(4/4)=1.0≥0.8→强规则 2. {A,D}→规则: - A→D - D→A - A→D:conf=support(A,D)/support(A)=(3/4)/(4/4)=0.75<0.8→不满足 - D→A:conf=support(A,D)/support(D)=(3/4)/(3/4)=1.0≥0.8→强规则 3. {B,D}→规则: - B→D - D→B - B→D:conf=support(B,D)/support(B)=(3/4)/(4/4)=0.75<0.8→不满足 - D→B:conf=support(B,D)/support(D)=(3/4)/(3/4)=1.0≥0.8→强规则 从L3开始: L3={ {A,B,D} } 生成所有非空真子集作为前件,其余作为后件: conf=support(L3比例)/support(前件比例) - 前件{A},后件{B,D}→A→{B,D} - 前件{B},后件{A,D}→B→{A,D} - 前件{D},后件{A,B}→D→{A,B} - 前件{A,B},后件{D}→{A,B}→D - 前件{A,D},后件{B}→{A,D}→B - 前件{B,D},后件{A}→{B,D}→A 非空真子集: 假设有集合$$B = \{1, 2, 3\}$$: - {1}是B的非空真子集。 - 解释:{1}中的元素(1)也在B中;{1}$$\neq\{1, 2, 3\}$$(不相等);且{1}非空。 - {1,2}是B的非空真子集。 - 解释:{1,2}中的元素(1和2)也在B中;{1,2}$$\neq\{1, 2, 3\}$$;且{1,2}非空。 计算每个规则的置信度: 1. A→{B,D}: $$conf = support(\{A,B,D\}) / support(A) = (3/4) / (4/4) = 0.75 < 0.8$$ → 不满足 2. B→{A,D}: $$conf = support(\{A,B,D\}) / support(B) = (3/4) / (4/4) = 0.75 < 0.8$$ → 不满足 3. D→{A,B}: $$conf = support(\{A,B,D\}) / support(D) = (3/4) / (3/4) = 1.0 \geq 0.8$$ → 强规则 4. {A,B}→D: $$conf = support(\{A,B,D\}) / support(\{A,B\}) = (3/4) / (4/4) = 0.75 < 0.8$$ → 不满足 5. {A,D}→B: $$conf = support(\{A,B,D\}) / support(\{A,D\}) = (3/4) / (3/4) = 1.0 \geq 0.8$$ → 强规则 6. {B,D}→A: $$conf = support(\{A,B,D\}) / support(\{B,D\}) = (3/4) / (3/4) = 1.0 \geq 0.8$$ → 强规则 总结所有强关联规则: 1. A→B (s=1.0, c=1.0) 2. B→A (s=1.0, c=1.0) 3. D→A (s=0.75, c=1.0) 4. D→B (s=0.75, c=1.0) 5. D→{A,B} (s=0.75, c=1.0) 6. {A,D}→B (s=0.75, c=1.0) 7. {B,D}→A (s=0.75, c=1.0)【缺少答案,请补充】