更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
完成以下用户行为数据处理任务: 1. 统计不同性别的平均购买金额。 2. 统计不同年龄段的用户数(18-25岁、26-35岁、36-45岁、46-55岁、56-65岁、65岁以上)。 3. 将统计结果分别截图以jpg的格式保存,分别命名为“1.1.4-1”、“1.1.4-2”、“1.1.4-3”。 4. 所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为“准考证号+身份证号后六位”。 技能要求: (1) 能结合人工智能技术要求和业务特征,设计整套业务数据采集流程 (2) 能结合人工智能技术要求和业务特征,设计整套业务数据处理流程 质量指标: (1) 完整性指标: 数据集中无缺失值和重复记录。 (2) 合理性指标: 所有数据点符合业务规则,无异常值存在。 (3) 清洗效果指标: 清洗后的数据集完整、合理,且适于建模分析。 给定Python代码框架,完成代码编写: import pandas import numpy as np import matplotlib.pyplot as plt # 1. 数据采集 # 从本地文件中读取数据 2分 data =pandas.read_csv('user_behavior_data.csv') print("数据采集完成,已加载到DataFrame 中") # 打印数据的前5条记录 2分 print(data.head()) # 2. 数据清洗与预处理 # 处理缺失值(删除) 2分 data = data.dropna() # 数据类型转换 data['Age'] = data['Age'].astype(int) # Age 数据类型转换为int 2分 data['PurchaseAmount'] = data['PurchaseAmount'].astype(float) # PurchaseAmount 数据类型转换为float 2分 data['ReviewScore'] = data['ReviewScore'].astype(int) # ReviewScore 数据类型转换为int 2分 # 处理异常值 2分 data = data[(data['Age'].between(18,70))& (data['PurchaseAmount'] > 0) & (data['ReviewScore'].between(1, 5))] # 数据标准化 data['PurchaseAmount'] = (data['PurchaseAmount']- data['PurchaseAmount'].mean())/ data['PurchaseAmount'].std() # PurchaseAmount 数据标准化 2分 data['ReviewScore'] = (data['ReviewScore']- data['ReviewScore'].mean()) / data['ReviewScore'].std() # ReviewScore 数据标准化 2分 # 保存清洗后的数据 1分 data.to_csv('cleaned_user_behavior_data.csv', index=False) print("数据清洗完成,已保存为 'cleaned_user_behavior_data.csv'") # 3. 数据统计 # 统计每个购买类别的用户数 2分 purchase_category_counts =data['PurchaseCategory'].value_counts() print("每个购买类别的用户数:\n", purchase_category_counts) # 统计不同性别的平均购买金额 2分 gender_purchase_amount_mean =data.groupby('Gender')['PurchaseAmount'].mean() print("不同性别的平均购买金额:\n", gender_purchase_amount_mean) # 统计不同年龄段的用户数 2分 bins = [18,26,36,46,56,66, np.inf] labels = ['18-25','26-35','36-45','46-55','56-65','65+'] data['AgeGroup'] = pandas.cut(data['Age'], bins=bins, labels=labels,right=False) age_group_counts = data['AgeGroup'].value_counts().sort_index() print("不同年龄段的用户数:\n", age_group_counts)【缺少答案,请补充】
作为人工智能训练师,针对智能交通系统,根据提供的vehicle_traffic_data.csv数据集和Python代码框架(1.1.5.ipynb),完成以下数据的采集、处理和审核任务,确保数据的准确性和可靠性: (1) 数据采集: 通过运行Python代码(1.1.5.ipynb),从本地文件vehicle_traffic_data.csv中读取数据,并将数据加载到DataFrame中。显示前5行数据截图以jpg的格式保存,命名为“1.1.5-1”。 (2) 数据清洗与预处理: 通过运行Python代码(1.1.5.ipynb)对数据进行清洗和预处理,具体要求如下: 处理缺失值: 对缺失值进行删除。 数据类型转换: 确保每个字段的数据类型正确。 处理异常值: 删除不合理的年龄、车速、行驶距离和行驶时间。 清洗后的数据保存为新文件cleaned_vehicle_traffic_data.csv。 (3) 数据合理性审核: 通过运行Python代码审核以下字段的合理性: 年龄: 应在18到70岁之间。 车速: 应在0到200 km/h之间。 行驶距离: 应在1到1000 km之间。 行驶时间: 应在1到1440分钟(24小时)之间。 对不合理的数据进行标记,并将审核结果截图以jpg的格式保存,命名为“1.1.5-2”。 (4) 数据统计: 通过运行Python代码(1.1.5.ipynb),完成以下数据统计任务: 统计每种交通事件的发生次数。 统计不同性别的平均车速、行驶距离和行驶时间。 统计不同年龄段的驾驶员数(18-25岁、26-35岁、36-45岁、46-55岁、56-65岁、65岁以上)。 将统计结果分别截图以jpg的格式保存,分别命名为“1.1.5-3”、“1.1.5-4”、“1.1.5-5”。 所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为“准考证号+身份证号后六位”。 技能要求: (1) 能结合人工智能技术要求和业务特征,设计整套业务数据采集流程; (2) 能结合人工智能技术要求和业务特征,设计整套业务数据处理流程; (3) 能结合人工智能技术要求和业务特征,设计整套业务数据审核流程; 质量指标: (1) 数据完整性: 数据无缺失,每项记录完整。 (2) 数据合理性: 所有数值在合理范围内,无异常点。 (3) 数据一致性: 字段类型正确,数据格式统一。 (4) 分析准确性: 统计结果反映真实数据分布,无偏差。 给定Python代码框架如下,完成代码编写: import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1. 数据采集 # 从本地文件中读取数据 2分 data = pd.read_csv('vehicle_traffic_data.csv')【缺少答案,请补充】
在现代交通中,燃油效率(MPG)是衡量汽车性能和交通系统优化的重要指标之一。高效的燃油利用不仅能够降低车辆运营成本,还能减少碳排放,促进环保。开发一个用于预测汽车燃油效率的模型可以帮助智慧交通系统优化路线规划和车辆调度,从而提升整体交通效率和减少能源消耗。此外,这样的模型还可以帮助消费者做出更明智的购车决策,并帮助厂商优化汽车设计。 现要求根据提供的汽车燃油效率数据集,补全2.1.1.ipynb代码。选择合适的特征,开发一个燃油效率预测模型。在开发预测模型之前,首先要对数据进行数据清洗和标注,请完成下面的数据预处理任务,并设计一套标注流程规范: (1)正确加载数据集,并显示前五行的数据及数据类型。 (2)检查数据集中的缺失值并删除缺失值所在的行。 (3)将"horsepower"列转换为数值类型,并处理转换中的异常值。 (4)对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。 (5)根据业务需求和数据特性,选择对燃油效率预测最有用的特征: 选择以下特征: 'cylinders'、'displacement'、'horsepower'、'weight'、'acceleration'、'model year'、'origin' (6)将"mpg"设为目标变量并标注; (7)对数据进行标注和划分; (8)保存处理后的数据,并命名为: 2.1.1_cleaned_data.csv,保存到考生文件夹; (9)制定数据清洗和标注规范,将答案写到答题卷文件中,答题卷文件命名为"2.1.1.docx",保存到考生文件夹; (10)将以上代码以及运行结果,以html格式保存并命名为2.1.1.html,保存到考生文件夹,考生文件夹命名为"准考证号+身份证后6位"。
在应对气候变化的背景下,了解和促进低碳生活行为变得越来越重要。现要求根据提供的"大学生低碳生活行为的影响因素数据集",选择合适的特征,开发一个预测大学生低碳生活行为的模型。提供的数据集样本数据包含300多个关于大学生低碳生活行为的自变量和因变量。自变量为主观规范、知觉行为控制、低碳行为态度,中介变量为行为意愿,因变量为低碳生活行为。同时,性别、生源地、月生活费作为控制变量进行研究。在开发预测模型之前,首先要对数据进行数据清洗和标注。补全2.1.2.ipynb代码。完成下面的数据预处理任务,并设计一套标注流程规范: (1) 正确加载数据集,并显示前五行的数据; (2) 检查数据集中的缺失值,使用删除包含缺失值的行的办法处理,记录缺失值处理后的数据行数; (3) 检查数据集中的重复值并删除所有重复值,并记录删除的行数; (4) 对数值型数据进行标准化处理,确保数据在同一量纲下进行分析; (5) 根据业务需求和数据特性,选择对低碳生活行为预测最有用的特征,将"低碳行为积极性"设为目标变量并标注。选择以下特征: 1.您的性别○男性 ○女性 2.您的年级○大一 ○大二 ○大三 ○大四 3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市 4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元 5.您进行过绿色低碳的相关生活方式吗? 6.您觉得"低碳",与你的生活关系密切吗? 7.低碳生活是否会成为未来的主流生活方式? 8.您是否认为低碳生活会提高您的生活质量? (6) 对数据进行划分(8:2); (7) 保存处理后的数据,并命名为: 2.1.2_cleaned_data.csv,保存到考生文件夹; (8) 制定数据清洗和标注规范,将答案写到答题卷文件中,答题卷文件命名为"2.1.2.docx",保存到考生文件夹; (9) 将以上代码以及运行结果,以html格式保存并命名为2.1.2.html,保存到考生文件夹,考生文件夹命名为"准考证号+身份证后6位"。