更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
某电商平台希望通过用户行为数据分析,了解用户购物习惯、购买倾向等,从而优化产品推荐系统,提高用户满意度和销售额。作为数据分析师,您需要设计一套全面的业务数据采集与处理流程,确保数据在进入用户行为分析系统之前经过严格的采集、清洗和预处理。 我们提供一个用户行为数据集(user_behavior_data.csv),包含以下字段: - UserID: 用户 ID - UserName: 用户名 - Age: 年龄 - Gender: 性别(Male/Female) - Location: 位置 - LastLogin: 上次登录时间 - PurchaseAmount: 购买金额 - PurchaseCategory: 购买类别(例如,电子产品、服装、食品等) - ReviewScore: 用户评价评分(1-5) - LoginFrequency: 登录频率(每日、每周、每月) 你作为人工智能训练师,根据提供的 user_behavior_data.csv 数据集和 Python 代码框架(1.1.4.ipynb),完成以下数据的采集与处理任务,确保数据的准确性和可靠性。请按照以下要求完成任务,确保结果准确并保存相应的截图。 (1)数据采集: 通过运行 Python 代码(1.1.4.ipynb),从本地文件 user_behavior_data.csv 中读取数据,并将数据加载到 DataFrame 中。打印前 5 条数据。 (2)数据清洗与预处理: 通过运行 Python 代码(1.1.4.ipynb)对数据进行清洗和预处理,具体要求如下: - 处理缺失值:对缺失值进行填充或删除。 - 数据类型转换:确保每个字段的数据类型正确。 - 处理异常值:删除不合理的年龄、购买金额和评价评分。 - 数据标准化:对购买金额和评价评分进行标准化处理。 清洗后的数据保存为新文件 cleaned_user_behavior_data.csv。 (3)数据统计: 通过运行 Python 代码(1.1.4.ipynb),完成以下数据统计任务: - 统计每个购买类别的用户数。 - 统计不同性别的平均购买金额。 - 统计不同年龄段的用户数(18-25 岁、26-35 岁、36-45 岁、46-55 岁、56-65 岁、65 岁以上)。 将统计结果分别截图以 JPG 的格式保存,分别命名为“1.1.4-1”、“1.1.4-2”、“1.1.4-3”。 所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为“准考证号+身份证号后六位”。
1.场地设备要求 (1)人工智能训练师主机 1 台; (2)Python 编译环境; (3)大学生低碳生活行为的影响因素数据集。 2.工作任务 在应对气候变化的背景下,了解和促进低碳生活行为变得越来越重要。现要求根据提供的“大学生低碳生活行为的影响因素数据集”,选择合适的特征,开发一个预测大学生低碳生活行为的模型。提供的数据集样本数据包含300多个关于大学生低碳生活行为的自变量和因变量。自变量为主观规范、知觉行为控制、低碳行为态度,中介变量为行为意愿,因变量为低碳生活行为。同时,性别、生源地、月生活费作为控制变量进行研究。在开发预测模型之前,首先要对数据进行数据清洗和标注。补全2.1.2.ipynb代码。完成下面的数据预处理任务,并设计一套标注流程规范: (1)正确加载数据集,并显示前五行的数据; (2)检查数据集中的缺失值,使用删除包含缺失值的行的办法处理,记录缺失值处理后的数据行数; (3)检查数据集中的重复值并删除所有重复值,并记录删除的行数; (4)对数值型数据进行标准化处理,确保数据在同一量纲下进行分析; (5)根据业务需求和数据特性,选择对低碳生活行为预测最有用的特征,将“低碳行为积极性”设为目标变量并标注。选择以下特征: 1.您的性别○男性 ○女性 2.您的年级○大一 ○大二 ○大三 ○大四 3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市 4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元 5.您进行过绿色低碳的相关生活方式吗? 6.您觉得“低碳”,与你的生活关系密切吗? 7.低碳生活是否会成为未来的主流生活方式? 8.您是否认为低碳生活会提高您的生活质量? (6)对数据进行划分(8:2); (7)保存处理后的数据,并命名为:2.1.2_cleaned_data.csv,保存到考生文件夹; (8)制定数据清洗和标注规范,将答案写到答题卷文件中,答题卷文件命名为“2.1.2.docx”,保存到考生文件夹; (9)将以上代码以及运行结果,以html格式保存并命名为2.1.2.html,保存到考生文件夹,考生文件夹命名为“准考证号+身份证后6位”。 3.技能要求 (1)能结合人工智能技术要求和业务特征,设计数据清洗和标注流程; (2)能结合人工智能技术要求和业务特征,制定数据清洗和标注规范。 4.质量指标 (1)数据预处理步骤完整,方法选择合理; (2)代码实现正确,结果符合预期。【缺少答案,请补充】
随着医学技术的进步和医疗资源的丰富,医疗研究在改善患者治疗效果、提升医疗服务质量方面起到了重要作用。研究人员通过分析大量患者的治疗数据,能够评估不同治疗方案的效果,发现潜在的健康问题,并提出针对性的治疗建议。这不仅可以帮助患者获得更好的治疗效果,还能为医疗机构优化资源配置、提升服务水平提供重要依据。 现提供一份医疗研究数据集,训练集样本数据一共5441条记录。请补全2.1.4.ipynb代码,完成下面的数据预处理任务: 1、加载数据集,查看表的数据类型,表结构和显示每一列的空缺值数量; 2、将“就诊日期”和“诊断日期”规范为“yyyy-mm-dd”格式,并将“病人ID”列名改为“患者ID”,显示修改后的表结构; 3、增加“诊断延迟”(诊断日期-就诊日期)和“病程”(当前日期-诊断日期)两列,删除不合理的数据(如负数,年龄为几百岁等); 4、检查数据集中的重复值并删除所有重复值,并记录删除的行数; 5、对数据段[年龄,体重,身高]进行归一化处理; 6、统计不同疾病类型的治疗结果分布,并画出柱状图; 7、分析年龄和疾病严重程度的关系,绘制出散点图; 8、保存处理后的数据,并命名为:2.1.4_cleaned_data.csv,保存到考生文件夹; 9、制定数据清洗和数据标注规范,将答案写到答题卷文件中,答题卷文件命名为“2.1.4.docx”,保存到考生文件夹; 10、将以上代码以及运行结果,以html格式保存并命名为2.1.4.html,保存到考生文件夹,考生文件夹命名为“准考证号+身份证后6位”。 3.技能要求 (1)能结合人工智能技术要求和业务特征,设计数据清洗和标注流程; (2)能结合人工智能技术要求和业务特征,制定数据清洗和标注规范。 4.质量指标 (1)深入理解业务,训练符合业务需求的模型。【缺少答案,请补充】