多选题 大模型训练的分布式并行策略包括?

A、 数据并行
B、 模型并行(张量/流水线)
C、 混合并行
D、 专家并行(MoE)
下载APP答题
由4l***hi提供 分享 举报 纠错

相关试题

单选题 以下哪项是大模型的核心定义(基于IDC标准)?

A、参数数量在百万级的深度学习模型
B、基于海量多源数据的预训练模型,支持零样本/小样本学习
C、仅处理文本数据的生成式模型
D、必须通过闭源方式提供服务的AI模型

单选题 Transformer架构的核心突破是?

A、采用循环神经网络解决长程依赖
B、提出自注意力机制,实现并行计算
C、仅适用于计算机视觉任务
D、依赖CNN提取特征

单选题 大模型推理中,首token时延(TTFT)的定义是?

A、生成所有token的总时间
B、从接收到请求到第一个token生成的时间
C、每个后续token的平均生成时间
D、模型加载至内存的时间

单选题 以下哪种并行策略是将模型的每一层拆分开放到不同GPU上?

A、数据并行
B、张量并行
C、流水线并行
D、专家并行

单选题 华为盘古气象大模型的核心优势不包括?

A、预测速度提升10000倍
B、提前10天准确预测台风路径
C、仅支持单模态数据输入
D、推理仅需1卡10秒

单选题 华为昇腾AI处理器的核心架构是?

A、达芬奇架构
B、CUDA架构
C、x86架构
D、ARM架构

单选题 大模型训练中,KV Cache技术的核心作用是?

A、增加模型参数量
B、减少重复计算,提升推理效率
C、降低模型训练的显存需求
D、仅适用于小模型推理

单选题 Stable Diffusion模型的核心组件不包括?

A、文本编码器
B、图像信息创建器
C、语音识别模块
D、图像解码器