AI热点 3 months ago 267 Views 11 Comments

英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王:1 秒 AI 转录 60 分钟音频,字错率低至 6.05%

Published 1221 Articles

IT之家 5 月 7 日消息,科技媒体 marktechpost 昨日(5 月 6 日)发布博文,报道称英伟达最新推出 Parakeet TDT 0.6B,是一款先进的自动语音识别(ASR)模型,已在 Hugging Face 平台上完全开源。

Parakeet TDT 0.6B 的核心优势在于其无与伦比的速度和转录质量。该模型仅需 1 秒即可处理 60 分钟音频,是现有主流开源 ASR 典型模型速度的 50 倍。

在 Hugging Face 的 Open ASR Leaderboard 上,其字错率(WER)低至 6.05%,成为开源模型中的佼佼者。这一性能为实时转录、语音分析、呼叫中心智能和音频内容索引等企业级应用提供了强大支持。

该模型基于 Transformer 架构,结合高质量转录数据进行微调,并针对英伟达硬件优化推理。

IT之家援引博文介绍,该模型关键特性包括:6 亿参数的编码-解码结构、量化和融合内核以提升推理效率、支持 TDT(Transducer Decoder Transformer)架构,以及精确的时间戳、数字格式化和标点恢复功能。

此外,该模型还开创性地支持歌曲转歌词转录,这一罕见功能拓展了音乐索引和媒体平台的用例,依托英伟达的 TensorRT 和 FP8 量化技术,其实时率(Real Time Factor,RTF,模型处理时间和音频长度的比值)达到 3386。

Parakeet TDT 0.6B 不仅关注速度和精度,还内置了多项独特功能。该模型能将歌曲内容转为歌词,适用于音乐和媒体领域;支持数字和时间戳格式化,提升会议记录、法律转录和医疗记录的可读性;标点恢复功能则增强了下游自然语言处理(NLP)应用的表现。这些特性大幅提升转录质量,减轻后期处理或人工编辑的负担,尤其适合企业级部署。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

1221 Articles 178813 Views 5638 Fans

Comment (11)

User avatar

哇,这个转录速度简直太给力了!

User avatar

这速度真的有点吓人,未来人类的转录速度都得靠它了

User avatar

我感觉我的人生都因此而改变了,感谢这个转录速度

User avatar

我一定是世界上最快的转录者了,这简直太不可思议

User avatar

感觉自己像在看慢动作电影,好奇心爆棚

User avatar

这简直是科技的奇迹,未来可期!

User avatar

这速度也太快了吧,人类的效率都赶不上它

User avatar

我开始怀疑时间是不是被它扭曲了

User avatar

这简直是神仙转录,我崇拜它!

User avatar

我感觉我的大脑都要爆炸了,好家伙!

睡觉动画