听觉系统的感知特性(精)
MP4 stands for MPEG-4. It was developed by the Moving Picture Experts group (MPEG). MP4 is a versatile new internet standard for music and video (multimedia) files. By comparison, MPEG 1 was the format used on CDs and MP3's and MPEG 2 was for DVDs. MP4 is a multimedia standard for computers and wireless devices. MP4 is becoming more and more popular. It allows easy and fluent authoring and playback of multimedia over a wide variety of platforms from computers, game consoles and multimedia players to all sort of wireless devices. It is a true internet standard.
--进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从 实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、 AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。 --我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把 大词汇量语音识别的研究列入"863"计划,由中科院自动化所、声学所 及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常 重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、 台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除 了要加强理论研究外,更要加快从实验室演示系统到商品的转化。 语音识别的技术发展经历了以下几个阶段:
第八章 MPEG声音
压缩声音的方法: · 波形编码 · 模拟发声器官编码 · 感知声音编码
8.1 听觉系统的感知特性
一、响度感知
听阈
痛阈
二、音高感知
三、掩蔽效应
频域掩蔽时域掩蔽源自(1) (2)Pre-masking Post-masking
8.2 MPEG Audio 与感知特性
一、psychoacoustic model
●根据对说话人说话方式的要求可以分为: 孤立字(词)语音识别阶段; 连接字语音识别阶段; 连续语音识别阶段。
●根据对说话人的依赖程度可以分为: 特定人语音识别阶段; 非特定人语音识别阶段。 ●根据词汇量大小可以分为: 小词汇量阶段; 中等词汇量阶段; 大词汇量以及无限词汇量语音识别阶段。 语音技术市场正在迅速成长,且发展势头良好。分析家预测,从 1999年到2004年,语音技术市场将以每年31%的速度持续增长。语 音技术市场的迅速扩展意味着我们正面临着大量部署语音应用的转折 期。
去掉听阈以下信号 使用掩饰特性
二、感知子带编码与Dobly AC-3编码
8.3 MPEG-1 Audio
一、MPEG-1 Audio处理对象 20-20kHz声音对象
二、子带编码
三、编码层
Layer1:
Layer2:
Layer3:
MP3(MPEG-1 Layer 3),是当今较流行的一种音频格式,全称 为MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。 它是基于MPEG-1第三部分音频(正式名称11172-3)压缩算法的一 种(Layer 3)。MP3是一种有损压缩,它利用了人耳的听觉特性来 提高压缩率的算法。在基本上保持CD音质的前提下,MP3能将音 频数据压缩到原有的1/10甚至更少。 MP3格式最早由德国弗朗霍夫研究院和法国汤姆生公司在1993年 合作研制成功。但当时的MP3格式并不完善,因此众多人士开始 了自己的完善工作。由于MP3的编码方式开放,也就是说在这个 大的框架下,人们可以选择不同的原理进行压缩,所以就出现了 CBR、VBR、ABR等一批不同的编码方式,并导致了当今MP3编 码方式较为混乱的局面,但现在通用的编码器为运用VBR或ABR 编码方式的LAME。 现在几乎所有的音频播放软件或MP3播放器(硬件设备)都(声 称)支持MP3格式,但并不是每个软件都能非常有效的识别各种 MP3的编码格式。例如SONY的某些MP3播放器在播放某些编码 的MP3文件时会出现杂音。
8.4 MPEG-2 Audio
一、MPEG -2 BC Audio
二、MPEG-2 Audio AAC
有多先进? 基本模块
不断发展
音频格式就像电脑软硬件一样,终归要更新换代的,像磁带不是 被CD淘汰了吗?而CD也将要被DVD-Audio所代替。随着时间 的推移,MP3越来越不能满足我们的需要了,比如压缩率落后于 Ogg、WMA、VQF等格式,音质也不够理想(尤其是低码率 下),仅有两个声道……于是Fraunhofer IIS与AT&T、索尼、 杜比、诺基亚等公司展开合作,共同开发出了被誉为“21世纪 的数据压缩方式”的Advanced Audio Coding(简称AAC)音频 格式,以取代MP3的位置。 其实AAC的算法在1997年就完成了,当时被称为MPEG-2 AAC, 因为还是把它作为MPEG-2标准的延伸。但是随着MPEG-4音 频标准在2000年成型,MPEG-2 AAC也被作为它的编码技术核 心,同时追加了一些新的编码特性,所以我们又叫MPEG-4 AAC。
8.5 MPEG-4 Audio
一、MPEG -4自然声音
参数编码器 CELP编码器 T/F编码器
二、MPEG -4合成声音
MIDI
TTS
语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了 第一个可识别十个英文数字的语音识别系统--Audry系统。 --60年代,计算机的应用推动了语音识别的发展。这时期的重要成果 是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地 解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 --70年代,语音识别领域取得了突破。在理论上,LP技术得到进一 步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化 (VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预 测倒谱和DTW技术的特定人孤立语音识别系统。 --80年代,语音识别研究进一步走向深入,其显著特征是HMM模型 和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛 应用应归功于AT& T Bell实验室Rabiner等科学家的努力,他们把原本 艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和 HMM模型建立的语音识别系统,性能相当。