已知以下背景信息:请求平均长度:假设该场景请求平均长度为 100token。
日均请求量:当前线上服务的日均请求量约为 60 万次。
吞吐量峰值:系统在高峰时段的吞吐量峰值为 3200 token/s。
算力分配:70% 的推理任务由华为 910B 卡承担,其余 30% 由 NVIDIA A10 卡处理。
单卡性能:基于 Qwen 2.5-32B 模型实测,每张 910B 卡的吞吐量约为 370 token/s。
并发能力:该模型支持约 40 + 并发请求。
为了保证系统的稳定运行,需要预留三张 910B 卡用于新场景上线。请计算总共需要多少张 910B 卡来满足上述需求。