字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈 字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框 AI热点 3天前 0 点赞 0 评论 204 浏览