Follow

用Whisper官方的模型跑了一下中文的语音识别,结果很奇怪,时不时会识别出“请不吝点赞订阅转发打赏支持明镜与点点栏目”,而且对应的音频位置都没有声音,再看结果又识别出一些“中文字幕由xxxx提供 ”的文本。突然意识到他们应该用了大量油管视频的音频字幕,所以会在没有声音的地方会加这种字幕内容,结果整个模型都训脏了...变成在没有声音的片段随机投放广告了otz

笑疯了,到底拉了多少明镜这个channel啊

除了英语以外其他语言的训练语料都有类似的情况所以还挺常见的。看到这个解决方案的命名觉得神奇,字面意思上的。它把污染的结果称为 hallucinated texts,听上去像魔法,获得 whisper without hallucination 是一种诗的提纯。
github.com/EtienneAb3d/Whisper

@d 都是类似的原因哈哈哈,以及30s是最开始模型设计的问题,可以用Transformers pipeline来切片支持任意时长

@wyzzw 遇到过与视频内容完全无关的部分,比如:“For more UN videos visit www.un.org” 、“字幕由Amara.org社区提供” 。

@ezeli0 对,每个语种都有这种情况,可以先用VAD过滤一下没声音的部分,以及看到这个 github.com/EtienneAb3d/Whisper

@wyzzw 如果是日语的话会识别出很多“感谢点赞关注支持”的内容(

@wyzzw
原來如此。
之前在轉錄一部Podcast的時候,開場音樂處出現了一句「字幕製作:xxxx」。
我還以為是有什麼聲音水印在裡面,反覆聽了好幾遍也沒找到。

@aheadbug 我也是hhh,开始跟一个音频死磕半天也没找到是什么原因,接了几个模块,倒回去最后才发现是whisper的问题

@wyzzw @aheadbug 真的假的?🤣太好玩了。我最近用了他們的英文模型,效果相當好啊。🤣我還在想要不要吧中文也接上,就看到你這個。

@Leask 真的啦,除了英文以外其他语言的语料来源可能都会有这个问题,不过主要是针对环境噪声的片段生成的,所以先跑VAD过滤可以改善。另外中文识别的话,去hugging face上换成针对中文finetune过的模型应该效果会更好。

@wyzzw 所以,🤣其實中文語料的質量之差,真的是各種各樣。🤣感謝寶貴經驗。

@wyzzw 我跑的日语视频在片头的BGM或者空白处会有什么ご視聴ありがとうございます...突然理解许多

@wyzzw 这个还挺搞笑的……说不定不同的底噪可以诱导出不同的广告……

@matrikslee 这并不是简中的问题,而是无监督数据训练问题,几乎出现在whisper的所有语言里。

Sign in to participate in the conversation
alive.bar

你好,欢迎使用 alive.bar 社交媒体实例。 alive.bar 仅仅是一个服务器位于美国的网站,它使用了「长毛象(Mastodon)」服务。