全球最快推理速度模型!Qafind Labs 发布 ChatDLM 技术
近日,Qafind Labs发布了其最新研发的ChatDLM模型,这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散(Block Diffusion)”和“专家混合(MoE)”深度融合的模型,其在GPU上实现了惊人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,开启了文档级生成和实时对话的新纪元。ChatDLM的核心亮点在于其独特的