某电商平台使用Hadoop Spark处理用户浏览日志，需完成以下分析任

多选题某电商平台使用Hadoop Spark处理用户浏览日志，需完成以下分析任务：①实时统计当前在线用户数；②离线计算过去7天每个用户的平均浏览时长；③实时推荐用户可能感兴趣的商品（基于最近浏览记录）。以下哪些Spark组件和编程模型适合这些任务？

A、使用Spark Streaming处理实时日志数据,通过维护用户会话状态统计在线用户数

B、采用Spark SQL读取HDFS上的历史浏览日志,编写SQL语句计算用户平均浏览时长

C、使用Spark Core的RDD API,编写离线计算程序处理7天历史数据,计算平均浏览时长

D、部署Spark MLlib机器学习库,训练商品推荐模型,结合Spark Streaming实时获取的用户浏览记录,生成实时推荐结果

E、使用Spark Structured Streaming处理实时数据流,支持基于SQL的实时分析,同时兼容批处理API

查看答案

下载APP答题

由4l***sy提供分享举报纠错

相关试题

单选题在神经网络训练中，优化器的选择直接影响模型的收敛速度和最终效果。此时换用以下哪种优化器，通常能更快收敛且更稳定？

A、Adam

B、梯度下降(GD)

C、动量(Momentum)

D、RMSprop

查看答案

单选题在不平衡数据集场景中，此时更应关注以下哪种指标，以确保模型能有效识别阳性样本？

A、召回率(Recall)

B、准确率(Accuracy)

C、困惑度(Perplexity)

D、均方误差(MSE)

查看答案

单选题数据预处理是企业 AI 项目的基础环节，以下哪种数据预处理操作不能解决上述问题？

A、对"用户消费金额"进行标准化处理

B、对"最近登录时间"缺失值使用合理方法填充

C、对"用户性别"字段进行独热编码

D、对"用户性别"字段进行统一格式处理

查看答案

单选题在自注意力机制中，"query""key""value"三个组件的核心作用是？

A、query 与 key 计算相似度,结合 value 生成最终注意力输出

B、query 存储词语特征,key 加速计算,value 防止过拟合

C、query 控制训练速度,key 优化梯度,value 提升泛化能力

D、query 处理文本长度,key 解决歧义,value 生成预测结果

查看答案

单选题在企业 AI 项目中，经常会遇到需要根据历史数据预测用户行为的场景。例如某电商平台想要通过用户过去 3 个月的浏览记录、加购记录、购买频率等带标签的数据训练模型，以判断新用户是否会购买某款商品。这种需要依赖标注数据进行训练的学习方式属于以下哪种机器学习类型？

A、监督学习

B、无监督学习

C、半监督学习

D、强化学习

查看答案

单选题以下关于“预训练阶段”的核心目标，描述正确的是？

A、让模型学习通用语言知识和世界常识

B、让模型精准适配企业特定任务

C、让模型具备部署到生产环境的能力

D、让模型避免生成虚假信息

查看答案

单选题卷积神经网络(CNN)是计算机视觉任务的核心模型，在企业中广泛应用于商品图像分类、人脸识别、瑕疵检测等场景。以下关于 CNN 卷积层的主要作用，描述正确的是？

A、提取图像的局部特征

B、压缩图像维度,减少计算量

C、防止模型过拟合,提升泛化能力

D、加速模型训练,减少显存占用

查看答案

单选题某 AI 数据工程师在训练一个“用户信用评分模型”时，发现模型在训练集上的准确率达到 98%，但在测试集上的准确率仅为 65%，这种“模型在训练数据上表现好、在新数据上表现差”的现象被称为过拟合。以下哪种方法不能有效防止过拟合？

A、增加训练数据量

B、给模型参数添加 L1 正则化

C、使用早停法

D、增加模型复杂度

查看答案