我一直在玩: "@Leask@mastodon.world 真的啦，除了英文以外其他语言的语料来源可能都会有这个问…" - alive.bar

Aug 02, 2023, 03:27

我一直在玩 @[email protected]

用Whisper官方的模型跑了一下中文的语音识别，结果很奇怪，时不时会识别出“请不吝点赞订阅转发打赏支持明镜与点点栏目”，而且对应的音频位置都没有声音，再看结果又识别出一些“中文字幕由xxxx提供 ”的文本。突然意识到他们应该用了大量油管视频的音频字幕，所以会在没有声音的地方会加这种字幕内容，结果整个模型都训脏了...变成在没有声音的片段随机投放广告了otz

Aug 02, 2023, 10:21

猫科韶傅🌐 @[email protected]

@wyzzw
原來如此。
之前在轉錄一部Podcast的時候，開場音樂處出現了一句「字幕製作：xxxx」。
我還以為是有什麼聲音水印在裡面，反覆聽了好幾遍也沒找到。

Aug 02, 2023, 10:35

我一直在玩 @[email protected]

@aheadbug 我也是hhh，开始跟一个音频死磕半天也没找到是什么原因，接了几个模块，倒回去最后才发现是whisper的问题

Aug 02, 2023, 14:26

Leask Wong @[email protected]

@wyzzw @aheadbug 真的假的？🤣太好玩了。我最近用了他們的英文模型，效果相當好啊。🤣我還在想要不要吧中文也接上，就看到你這個。

我一直在玩 @[email protected]

@Leask 真的啦，除了英文以外其他语言的语料来源可能都会有这个问题，不过主要是针对环境噪声的片段生成的，所以先跑VAD过滤可以改善。另外中文识别的话，去hugging face上换成针对中文finetune过的模型应该效果会更好。

Aug 02, 2023, 14:34 · · · ·

Aug 02, 2023, 19:09

Leask Wong @[email protected]

@wyzzw 所以，🤣其實中文語料的質量之差，真的是各種各樣。🤣感謝寶貴經驗。

Sign in to participate in the conversation