目录·同步掩蔽的定义 ·听觉的掩蔽效应 ·视觉的掩蔽效应 ·人耳的掩蔽效应
英文名称: Masking Effects
同步掩蔽的定义
同步掩蔽(也称为声响掩蔽) 要描述同步掩蔽效应,最好是通过一个类比。想象一只在太阳前面飞翔的小鸟。你看到小鸟从左边飞到你和太阳之间,然后小鸟消失,因为太阳光线的亮度太高。当小鸟移出太阳区域,你就又能看到它了。就像在一个安静的环境中,吉他手的手指轻轻滑过琴弦的响声都能听到,但如果同样的响声在一个正在播放摇滚乐曲的环境中,一般人就听不到了。
Mp3编解码器只关心频率之间和音量之间的相互关系。用mp3编解码器能够处理的方式描述同步掩蔽如下:你有个声音信号,是个1000赫兹的正弦波:
(一),然后我们再来一个1100赫兹的正弦波。
(二),正弦波二比较弱,-10db。大多数人在这种情况下感知不到正弦波二的存在。但是正弦波二之所以不容易被感知,不仅因为它比较弱,而且还因为它的频率和正弦波一十分接近。为了说明这个现象,我们逐渐增加第二个正弦波的频率,但保持它的音量不变,直到我们能听到它。假定它的频率增加到4000赫兹的时候我们就能听到这个声音了。当两个正弦波的频率差别逐渐变大,第二个正弦波逐渐可以听得到,直到它的频率增高到某一点之后,绝大多数人都可以听到两个互不相同的音调了,一个比较大声,另一个比较小声。
这个过程就是心理声学所说的“同步掩蔽”现象。两个频率相近,但是音量相差很多的声音,很难被人类感知为两个不同的声音。考虑到这种现象,mp3在编码过程中尽量丢弃那些无法被感知的声音,或者分配尽可能少的比特给这些声音。
听觉的掩蔽效应
掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间。在人们欣赏音乐时,如果设备对高频响应得比较好,则会使人感到低频响应不好,反之亦然。
一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。
1.频域掩蔽
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking),如图12-03所示。从图12-03可以看到,声音频率在300Hz附近、声强约为60dB的声音掩蔽了声音频率在150Hz附近、声强约为40db的声音。又如,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。
一组曲线分别表示频率为250Hz,1kHz和4kHz纯音的掩蔽效应,它们的声强均为60dB。从图14-04中可以看到:①在250Hz,1kHz和4kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(criticalband)”的概念。通常认为,在20Hz到16kHz范围内有24个临界频带,如表12-01所示。临界频带的单位叫Bark(巴克),
1Bark=一个临界频带的宽度。
f(频率)<500Hz的情况下,1Bark≈f/100。
f(频率)>500Hz的情况下,1Bark≈9+4log(f/1000)。
以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。
表12-01 临界频带[16]
临界
频带 频率 (Hz) 临界
频带 频率 (Hz)
低端 高端 宽度 低端 高端 宽度
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280
2.时域掩蔽
除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。这个区别也是很容易理解的。
3.时间掩蔽
同步掩蔽效应和不同频率声音的频率和相对音量有关,时间掩蔽则仅仅和时间有关。如果两个声音在时间上特别接近,人类在分辨它们的时候也会有困难。例如如果一个很响的声音后面紧跟着一个很弱的声音,后一个声音就很难听到。但是如果在第一个声音停止后过一段时间再播放第二个声音,后一个声音就可以听到。到底应该间隔多长时间?对纯音一般来讲是5毫秒。当然如果在时序上反过来效果是一样的,如果一个较低的声音出现在一个较高的声音之前而且间隔很短,那个较低的声音你也听不到。
JPEG压缩可以明确控制压缩中的信息丢弃比率,但Mp3用户不能。可是mp3用户可以指定每一秒的音乐是用多少个bit来存储。最终效果相同。
编码过程中,信号中的“无用分量”被拿来和人类心理声学的数学模型,以及压缩使用的彼特率作比较,以决定要扔掉哪些数据。当前mp3压缩使用的比特率一般是128kbps。编码器在输出每一帧数据的时候都会考虑到这个数字,如果比特率比较低,那么“无关”和“冗余”数据的定义就会被放宽,导致大量的数据被认为是无用数据,此时压缩后的音频会丢失大量细节,导致音质下降。相反,如果使用较高的比特率编码,“无关”和“冗余”的标准就会被限定的更严格,细节会被保留,但是文件更大。
注意,mp3文件的比特率指的是所有被编码声道的总比特率。也就是说一个128kbps立体声mp3文件,和两个同样时间的64kbps的单声道mp3文件加起来的大小相同。但是一个128kbps立体声文件达到的音效,比两个单独的单声道64kbps文件所达到的音质要好。因为在一个立体声mp3文件中,所有的bit可以被按照需求(不平均地)分配给两个声道,比如某一个时刻,一个声道使用其中60%的比特,另外一个使用剩下40%的比特,只不过总比特数不会超过编码前指定的比特率参数。
固定比特率和可变比特率
我们假定这里讨论的mp3编码使用的是固定比特率的编码方式,也就是说编码产生的文件在任何一个时间段内输出的比特率都是你指定的那个数值。固定比特率编
码的缺点是,绝大部分声音文件中的信息量并不是固定不变的。使用乐器较多,或者有很多人同时说话的音频片断中,信息量就大,反之就小:类似这样影响音频文
件信息量的因素还有很多。可变比特率编码就是为了适应音频文件的这一特点开发的。可变比特率编码,会根据音频数据的动态特性随时调整编码使用的比特率。
- 周排名
- 月排名
- 总排名
- 关注
- 粉丝
- 好友
0获赞
0评论
914访问数
关闭
站长推荐 /2
|