人工智能训练师_在线真题试卷与模拟练习_人工智能训练师

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

import pandas as pd

import numpy as np

# 读取数据集 1分

data = ______pd.read_csv('patient_data.csv')_______

# 1. 统计住院天数超过7天的患者数量及其占比

# 创建新列'RiskLevel'，根据住院天数判断风险等级 3分

_______data['RiskLevel']______ = _______np.where______(_______data['DaysInHospital'] > 7______, '高风险患者', '低风险患者')

# 统计不同风险等级的患者数量 2分

risk_counts = data______['RiskLevel']_______.______value_counts()_______

# 计算高风险患者占比 1分

high_risk_ratio = risk_counts['高风险患者'] / ________len(data)_____

# 计算低风险患者占比 1分

low_risk_ratio = risk_counts['低风险患者'] / _________len(data)____

# 输出结果

print("高风险患者数量:", risk_counts['高风险患者'])

print("低风险患者数量:", risk_counts['低风险患者'])

print("高风险患者占比:", high_risk_ratio)

print("低风险患者占比:", low_risk_ratio)

# 2. 统计不同BMI区间中高风险患者的比例和统计不同BMI区间中的患者数

# 定义BMI区间和标签

bmi_bins = [0, 18.5, 24, 28, np.inf]

bmi_labels = ['偏瘦', '正常', '超重', '肥胖']

# 根据BMI值划分指定区间 4分

data['BMIRange'] = ______pd.cut_______(_______data['BMI']______, _______bins = bmi_bins______, _______labels = bmi_labels______, right=False) # 使用左闭右开区间

# 计算每个BMI区间中高风险患者的比例 2分

bmi_risk_rate = ______data.groupby_______(______'BMIRange'_______)['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())

# 统计每个BMI区间的患者数量 1分

bmi_patient_count = data______['BMIRange'].value_counts()_______

# 输出结果

print("BMI区间中高风险患者的比例和患者数:")

print(bmi_risk_rate)

print(bmi_patient_count)

# 3. 统计不同年龄区间中高风险患者的比例和统计不同年龄区间中的患者数

# 定义年龄区间和标签

age_bins = [0, 26, 36, 46, 56, 66, np.inf]

age_labels = ['≤25岁', '26-35岁', '36-45岁', '46-55岁', '56-65岁', '＞65岁']

# 根据年龄值划分指定区间 4分

data['AgeRange'] = ______pd.cut_______(______data['Age]_______, ______bins = age_bins_______, ______labels = age_labels_______, right=False) # 使用左闭右开区间

# 计算每个年龄区间中高风险患者的比例 2分

age_risk_rate = ______data.groupby_______(_______'AgeRange'______)['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())

# 统计每个年龄区间的患者数量 1分

age_patient_count = data_______['AgeRange'].value_counts()______

# 输出结果

print("年龄区间中高风险患者的比例和患者数:")

print(age_risk_rate)

print(age_patient_count)

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 读取数据集 2分

data = ______pd.read_csv('sensor_data.csv')_______

# 1. 传感器数据统计

# 对传感器类型进行分组，并计算每个组的数据数量和平均值 3分

sensor_stats = ______data.groupby______(_______'SensorType'______)['Value'].______.agg(['count','mean'])_______

# 输出结果

print("传感器数据数量和平均值:")

print(sensor_stats)

# 2. 按位置统计温度和湿度数据

# 筛选出温度和湿度数据，然后按位置和传感器类型分组，计算每个组的平均值 2分

location_stats = data[data['SensorType']._____isin(['Temperature','Humidity'])________.______groupby(['Location','SensorType'])_______['Value'].mean().unstack()

# 输出结果

print("每个位置的温度和湿度数据平均值:")

print(location_stats)

# 3. 数据清洗和异常值处理

# 标记异常值 3分

data['is_abnormal'] = ______np.where_______(

((______data['SensorType']=='Temperature'_______) & ((data['Value'] < -10) | (data['Value'] > 50))) |

((______data['SensorType']=='Humidity'_______) & ((data['Value'] < 0) | (data['Value'] > 100))),

True, False

)

# 输出异常值数量 2分

print("异常值数量:", data['is_abnormal'].______sum()_______)

# 填补缺失值

# 使用前向填充和后向填充的方法填补缺失值 4分

data['Value'].______fillna_______(_______method='ffill'______, inplace=True)

# 保存清洗后的数据

# 删除用于标记异常值的列，并将清洗后的数据保存到新的CSV文件中 4分

cleaned_data = ______data.drop_______(______columns_______=['is_abnormal'])

______cleaned_data.to_csv_______('cleaned_sensor_data.csv', ____index=False_________)

print("数据清洗完成，已保存为 'cleaned_sensor_data.csv'")

# 1. 数据完整性审核

missing_values = data.____isnull().sum()_____ #数据缺失值统计 2分

duplicate_values = data.____duplicated().sum()_____ #数据重复值统计 2分

# 输出结果

print("缺失值统计:")

print(missing_values)

print("重复值统计:")

print(duplicate_values)

# 2. 数据合理性审核

data['is_age_valid'] = _____data['Age']____.____between_____(18, 70) #Age数据的合理性审核 2分

data['is_income_valid'] = _____data['Income']____ > _____2000____ #Income数据的合理性审核 2分

data['is_loan_amount_valid'] = _____data['LoanAmount']____ < (____data['Income']_____ * 5) #LoanAmount数据的合理性审核 2分

data['is_credit_score_valid'] = ____data['CreditScore']_____._____between____(300, 850) #CreditScore数据的合理性审核 2分

# 合理性检查结果

validity_checks = data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']].all(axis=1)

data['is_valid'] = validity_checks

# 输出结果

print("数据合理性检查:")

print(data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']].describe())

# 3. 数据清洗和异常值处理

# 标记不合理数据

invalid_rows = data[~data['is_valid']]

# 删除不合理数据行

cleaned_data = data[data['is_valid']]

# 删除标记列

cleaned_data = cleaned_data.drop(columns=['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid'])

# 保存清洗后的数据

____cleaned_data_____.____to_csv_____(_____'cleaned_credit_data.csv'____, index=False)

print("数据清洗完成，已保存为 'cleaned_credit_data.csv'")

import pandas

import numpy as np

import matplotlib.pyplot as plt

# 1. 数据采集

# 从本地文件中读取数据 2分

data = _____________pandas.read_csv('user_behavior_data.csv')__________________

print("数据采集完成，已加载到DataFrame中")

# 打印数据的前5条记录 2分

print(_____________data.head()__________________)

# 2. 数据清洗与预处理

# 处理缺失值（删除） 2分

data = _______________data.dropna()_________________

# 数据类型转换

data________['Age']________ = _________data['Age'].astype_______(int) # Age数据类型转换为int 2分

data________['PurchaseAmount']________ = ________data['purchaseAmount'].astype________(float) # PurchaseAmount数据类型转换为float 2分

data________['ReviewScore']________ = ________data['ReviewSource'].astype________(int) # ReviewScore数据类型转换为int 2分

# 处理异常值 2分

data = data[(________data['Age']________.________between________(18, 70)) &

(data['PurchaseAmount'] > 0) &

(_______data['ReviewScore']_________.________between________(1, 5))]

# 数据标准化

data['PurchaseAmount'] = (data['PurchaseAmount'] - ________data['PurchaseAmount'].mean()________) / _________data['PurchaseAmount'].std()_______ # PurchaseAmount数据标准化 2分

data['ReviewScore'] = (data['ReviewScore'] - ________data['ReviesScore'].mean()________) / ________data['ReviewScore'].std()________ # ReviewScore数据标准化 2分

# 保存清洗后的数据 1分

________data.to_csv________('cleaned_user_behavior_data.csv', index=False)

print("数据清洗完成，已保存为 'cleaned_user_behavior_data.csv'")

# 3. 数据统计

# 统计每个购买类别的用户数 2分

purchase_category_counts = _______data['PurchaseCategory']_________._________value_counts()_______

print("每个购买类别的用户数:\n", purchase_category_counts)

# 统计不同性别的平均购买金额 2分

gender_purchase_amount_mean = _______data.groupby_________(________'Gender'________)['PurchaseAmount'].mean()

print("不同性别的平均购买金额:\n", gender_purchase_amount_mean)

# 统计不同年龄段的用户数 2分

bins = [18, 26, 36, 46, 56, 66, np.inf]

labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']

data['AgeGroup'] = pandas.________cut________(________data['Age'],bins = bins, labels = labesl________, right=False)

age_group_counts = data['AgeGroup'].value_counts().sort_index()

print("不同年龄段的用户数:\n", age_group_counts)

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 1. 数据采集

# 从本地文件中读取数据 2分

data = ______pd.read_csv('vehicle_traffic_data.csv')_______

print("数据采集完成，已加载到DataFrame中")

# 打印数据的前5条记录 2分

print(______data.head()_______)

# 2. 数据清洗与预处理

# 处理缺失值（删除） 2分

data = ______data.dropna()_______

# 数据类型转换

data______['Age']_______ = ______data['Age'].astype_______(int) #Age数据类型转换为int 1分

data______['Speed']_______ = _______data['Speed'].astype______(float) #Speed数据类型转换为float 1分

data_______['TravelDistance']______ = _______data['TravelDistance'].astype______(float) #TravelDistance数据类型转换为float 1分

data______['TravelTime']_______ = _______data['TravelTime'].astype______(float) #TravelTime数据类型转换为float 1分

# 处理异常值 2分

data = data[(_______data['Age'].between______(18, 70)) &

(______data['Speed'].between_______(0, 200)) &

(_______data['TravelDistance'].between______(1, 1000)) &

(_______data['TravelTime'].between______(1, 1440))]

# 保存清洗后的数据 1分

_______data.to_csv______('cleaned_vehicle_traffic_data.csv', index=False)

print("数据清洗完成，已保存为 'cleaned_vehicle_traffic_data.csv'")

# 3. 数据合理性审核

# 审核字段合理性 1分

unreasonable_data = data[~((_______data['Age'].between______(18, 70)) &

(______data['Speed'].between_______(0, 200)) &

(______data['TravelDistance'].between_______(1, 1000)) &

(______data['TravelTime'].between_______(1, 1440)))]

print("不合理的数据:\n", unreasonable_data)

# 4. 数据统计

# 统计每种交通事件的发生次数 2分

traffic_event_counts = ______data['TrafficEvent'].value_counts()_______

print("每种交通事件的发生次数:\n", traffic_event_counts)

# 统计不同性别的平均车速、行驶距离和行驶时间 2分

gender_stats = data.______groupby('Gender')_______.______agg({'Speed':'mean','TravelDistance':'mean','TravelTime':'mean'})_______

print("不同性别的平均车速、行驶距离和行驶时间:\n", gender_stats)

# 统计不同年龄段的驾驶员数 5分

age_bins = [18, 26, 36, 46, 56, 66, np.inf]

age_labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']

data['AgeGroup'] = ______pd.cut_______(_______data['Age']______,______bins = age_bins_______,_______labels = age_labels______, right=False)

age_group_counts = ______data['AgeGroup'].value_counts()_______

print("不同年龄段的驾驶员数:\n", age_group_counts)

import pandas as pd

# 加载数据集并显示数据集的前五行 1分

data = _____pd.read_csv('auto-mpg.csv')_____

print("数据集的前五行:")

print(_____data.head()_____)

# 显示每一列的数据类型

print(data.dtypes)

# 检查缺失值并删除缺失值所在的行 2分

print("\n检查缺失值:")

print(_____data_____._____isnull()_____._____sum()_____)

data = _____data.dropna()_____

# 将 'horsepower' 列转换为数值类型，并（删除）处理转换中的异常值 1分

data['horsepower'] = _____pd.to_numeric_____(data['horsepower'], errors='coerce')

data = _____data.dropna(subset=['horsepower'])_____

# 显示每一列的数据类型

print(data.horsepower.dtypes)

# 检查清洗后的缺失值

print("\n检查清洗后的缺失值:")

print(data.isnull().sum())

from sklearn.preprocessing import StandardScaler

# 对数值型数据进行标准化处理 1分

numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']

scaler = StandardScaler()

data[numerical_features] = _____scaler.fit_transform(data[numerical_features])_____

from sklearn.model_selection import train_test_split

# 选择特征、自变量和目标变量 2分

selected_features = _____['cylinders','displacement','horsepower','weight',acceleration],'model year','origin'_____

X = _____data[Selected_features]_____

y = _____data['mpg']_____

# 划分数据集为训练集和测试集（训练集占8成） 1分

X_train, X_test, y_train, y_test = _____train_test_split_____(_____X,y,test_size=0.2_____, random_state=42)

# 将特征和目标变量合并到一个数据框中

cleaned_data = X.copy()

cleaned_data['mpg'] = y

# 保存清洗和处理后的数据（不存储额外的索引号） 1分

_____cleaned_data.to_csv_____('2.1.1_cleaned_data.csv', _____index=False_____)

# 打印消息指示文件已保存

print("\n清洗后的数据已保存到 2.1.1_cleaned_data.csv")