用Whisper官方的模型跑了一下中文的语音识别,结果很奇怪,时不时会识别出“请不吝点赞订阅转发打赏支持明镜与点点栏目”,而且对应的音频位置都没有声音,再看结果又识别出一些“中文字幕由xxxx提供 ”的文本。突然意识到他们应该用了大量油管视频的音频字幕,所以会在没有声音的地方会加这种字幕内容,结果整个模型都训脏了...变成在没有声音的片段随机投放广告了otz

Follow

除了英语以外其他语言的训练语料都有类似的情况所以还挺常见的。看到这个解决方案的命名觉得神奇,字面意思上的。它把污染的结果称为 hallucinated texts,听上去像魔法,获得 whisper without hallucination 是一种诗的提纯。
github.com/EtienneAb3d/Whisper

Sign in to participate in the conversation
alive.bar

你好,欢迎使用 alive.bar 社交媒体实例。 alive.bar 仅仅是一个服务器位于美国的网站,它使用了「长毛象(Mastodon)」服务。