10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
刚看到Simon在Mac上实测了微软新开源的VibeVoice-ASR,这模型有点东西啊。
9B参数,单次处理60分钟连续音频,还能输出谁在说、什么时候说、说了什么。
传统方案要拼Whisper+pyannote,现在一个模型全搞定,支持50多种语言和中英混说。
他用4-bit量化版(5.71GB)在M5 Max上转1小时播客用了8分45秒,内存峰值61.5GB,普通32GB笔记本跑不动。
有趣的是,模型把两人对谈识别成三人,因为Lenny在不同录音环境说话。
本地跑至少要64GB内存,对播客转写、会议纪要来说,多步流程现在能压缩成一次推理了。
你们觉得这模型怎么样?