PHD-Transformer

字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框