贡献准则

了解如何为 Yue Voice 数据集贡献语句和录音,以及如何验证他人提交的内容

不同发音

我们鼓励发音的多样性,而不是追求统一。在录制粤语时,欢迎不同口音、不同语调的贡献者参与。不同地区、不同背景的人,发音习惯可能不同,这些都是正常的。

但是,如果录音中出现了明显的发音错误(比如读错了字),那就应该拒绝这条录音。如果遇到不确定的情况,可以点击"跳过"按钮。

冒犯性内容

请不要提交含有冒犯性内容或不当言论的录音。虽然我们会进行审核,但可能无法完全过滤所有不当内容。如果您发现明显令人不适的内容(比如仇恨言论、歧视性言论等),请使用"举报"按钮举报,或者发邮件到 workbzw@gmail.com 联系我们。

误读

录音必须完整、准确地朗读文字内容。在听录音时,要仔细核对录音内容是否与文字完全一致。如果发现漏字、错字、或者添加了多余的内容,就应该跳过这条录音。

常见的错误包括:

  • 录音开头有"嗯""啊"等语气词
  • 读错了词语,比如把"美女"读成"美上"
  • 读错了字,比如把"读音"读成"读心"或"读因"
  • 停顿太长,导致录音不完整,或者漏掉了部分内容
  • 朗读时频繁停顿,不够流畅

背景噪音

轻微的背景噪音是可以接受的,但如果录音中能听到其他人在说话,就应该拒绝这条录音。这种情况通常发生在旁边开着电视,或者附近有其他人在聊天的时候。

背景人声

背景人声和背景噪音不一样。如果录音中能清楚地听到其他人在说话(不是背景噪音),就应该拒绝这条录音。因为这会干扰语音识别系统,让它分不清哪个是主要的声音。

比如在咖啡厅、餐厅、或者多人聚会的场合录制的音频,通常会有背景人声,这种录音应该被拒绝。

音量

不同人的音量大小本来就不一样,这是正常的。只有在音量太大导致录音失真,或者音量太小、不看着文字就听不清在说什么的时候,才需要跳过。

朗读者因素

大部分录音都是真人自然朗读的,偶尔遇到语速很慢、声音很大、声音很小,或者语调比较特别的录音,也是可以接受的。但如果听起来明显是机器朗读的,或者明显是电脑合成的声音(TTS),就应该跳过。

仍有不解之处?

如果遇到这些准则没有提到的情况,可以根据录音质量自己判断。如果实在拿不准,就点击"跳过"按钮,继续听下一条录音。