数字编码;数字语音编码
admin
2024-03-30 09:27:59
0

数字编码;数字语音编码

模拟与数字信号(Analogue vs. Digital Signals)
• 所有自然信号(包括语音)都是“模拟”– 他们可以假设无限的可能值;它们在时间中连续存在
• 完美处理模拟信号需要无限分辨率和/或无限存储
• 任何实用系统(计算机或生活有机体)必须牺牲保真度才能使用有限资源处理信号
• 因此,信号必须在每个维度(幅度和时间)– 时间方向的量化称为“采样”

信号序列的量化
时间方向是通过“采样”来实现的
• 语音信号(例如来自麦克风)通常是
– 量化幅度
– 及时采样
• 信号量化过程和抽样被称为:“脉冲编码调制”(PCM)

幅度量化(Amplitude Quantisation)
• 可用于的数字范围表示信号的幅度定义了系统的“动态范围”
• 如果 n 位用于存储每个幅度值,然后 2^n 个可能的值可以是
代表(0到2^n-1)
• 动态范围为 20 log10(2^n-1) 分贝
• 例如:16 位幅度量化给出了65535 个可能的值;96 分贝动态范围

连续信号采样
• 计算机通常无法处理连续的信号
• 必须对信号进行采样和量化

采样间隔:
Ts= 1/fs
fs = 8000HZ(说话)
fs = 44100HZ(音乐)
要确定采样正弦曲线的频率,每个时期至少需要两个样本

采样率(Sample Rate)
• “奈奎斯特采样定理”表明我们需要至少两倍的样本点数
每秒作为信号中的最高频率:采样率 > 2 x 最大信号频率
• 对低于奈奎斯特速率的信号进行采样会导致“混叠”(频率高于采样的能量率被反射回较低的频率)
• 例如:混叠可能发生在数字图像中,如果空间频率高于像素分辨率(结果是“莫尔条纹”)
• 通常在采样前对信号进行低通滤波为了避免混叠:fc < 0.5 fs
fc是滤波器的“截止频率(cut-off frequency)”; fs是“采样频率”

抽样理论
• 对连续信号 s(t) 进行采样是等效的乘以“狄拉克三角函数”
• 这个冲量是单位面积的一个矩形以 t0 为中心,其宽度趋于 0
狄拉克δ函数是一个广义函数,在物理学中常用其表示质点、点电荷等理想模型的密度分布,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。
狄拉克δ函数在概念上,它是这么一个“函数”:在除了零以外的点函数值都等于零,而其在整个定义域上的积分等于1。

编码理论
• 源自“信息论”(由克劳德·香农于 1948 年创立)
• 基于概率论和统计学
• 最重要的信息量是:
–“熵entropy”(随机变量中的信息)
– “相互信息mutual information”(信息量两个随机变量之间的共同点)
• 信息通常以位( bits)表示
– 熵表示数据的容易程度‘压缩’(由于冗余)
– 互信息可用于查找通过信道的通信速率

数字编码:图像
• 示例图像:360 像素宽,480 像素高,3 种颜色 (RGB),1 字节/颜色
• 原始数据(位图)Raw data (bitmap):518.4 KB (360 x 480 x 3)
• “无损”编码‘Lossless’ coding (LZW-TIF):378 千字节
• “有损”编码‘Lossy’ coding (jpeg): 31 千字节

数字编码:信号
• “编码”一个信息所需的信息量
信号由幅度量化(以比特/样本为单位)采样率(以样本/秒为单位)和定义
• 因此,数字信号的特征在于他们的“数据速率”(以比特/秒为单位 - bps)
– 以太网 LAN = 10 Gbps
– 无线 LAN = 600 Mbps
– ADSL 调制解调器 = 24 Mbps
– 4G 移动数据 = ~10 Mbps
– 3G 移动数据 = ~4 Mbps

数字编码:语音
• 演讲有约 10 kHz 的带宽,约 50 dB 的动态范围
• 因此,最小量化和采样要求似乎是20 kHz 采样率,8 位量化, 即 160 kbps
• 但是,可以同时降低带宽和动态范围在遭受重大损失之前显着
语言清晰度下降
– 例如 电话的带宽为 ~300 Hz 至 ~3.5 kHz(这对于 [f] 和 [s] 等声音来说是个问题)
• 数字语音“编解码器”充分利用有损压缩方案(通过利用“源过滤器”语音模型)
• 数字电话:8000 Hz * 8 Bit = 64.000 Bit /sec (ISDN)
• GSM(2G 移动):4-13 kBit/秒
综合业务数字网络 (ISDN) 是一组通信标准,用于通过公共交换电话网络的数字化电路同时数字传输语音、视频、数据和其他网络服务。
全球移动通信系统 (GSM) 是由欧洲电信标准协会 (ETSI) 开发的标准,用于描述移动电话和平板电脑等移动设备使用的第二代 (2G) 数字蜂窝网络协议。 GSM 也是 GSM 协会拥有的商标。GSM 也可能指全速率语音编解码器。
Audio/Speech Codecs
• DVD audio (24 bit 192 kHz PCM) = 4,608 kbps
• CD audio (16 bit 44.1 kHz PCM) = 705.6 kbps
• 16 bit 16 kHz PCM = 256 kbps
• telephone (8 bit 8 kHz ADPCM) = 64 kbps
• MP3 of these lectures = 24 kbps
• mobile phone (GSM CELP) = 13 kbps
• VOIP (low rate) = 8 kbps
• NATO vocoder (channel) = 2400 bps
• NATO vocoder (LPC10e) = 2400 bps
• NATO vocoder (MELP) = 1200 bps

数字语音编码
• 语音中的“信息率”估计为只有~100 bps!
– 语言信息 = ~50 bps
– 副语言信息 = ~50 bps
• 那么为什么我们需要kbps 声码器?
• 以较低速率编码信号的方法是利用信号中的任何“冗余”
• 对于语音,这是通过使用预测来实现的模型(在以后的讲座中会详细介绍)
• 语音的最终预测模型是“语音识别”+“语音合成”

相关内容

热门资讯

【美联储理事警告:美联储货币政... 【美联储理事警告:美联储货币政策可能无法应对AI引发的失业潮 】库克称,AI已引发美国劳动力市场的代...
黄金和交易提醒:金价高位“吞没... 来源:市场资讯 文章来源:汇通财经 周三(2月26日)亚市早盘,现货黄金窄幅震荡,目前交投于5150...
IPO雷达| 百普赛斯港股IP... 百普赛斯(301080.SZ)正式向香港联交所递交招股书。根据公司同步发布的2025年度业绩预告,全...
原创 澳... 2025年一则“澳洲高薪挖角中国稀土团队”的新闻,把全球稀土市场搅得风生水起。澳大利亚莱纳斯公司甩出...
苹果收购单人AI初创公司inv... IT之家 2 月 25 日消息,据 MacRumors 报道,一份提交给欧盟的新文件显示,苹果公司已...
珍惜:由早晨跑步所想到的 我每天早晨起来习惯在校园跑步,在跑步的时候,常常会思考跑步、人生及享受人生之间的关系。 我们知道人的...
趁乱抛售?最高法院刚裁决,对冲... 来源:市场资讯 来源:金十数据 根据外媒获得的一份美国银行报告,花旗的对冲基金客户在上周五美国最高法...
特别关注|9艘!“超高规格”新... 根据广船国际官微介绍,上述MR型油轮新造船为广船国际自主设计,总长约183米、宽32.2米,设计服务...
甲骨文股价在星门项目相关报道发... 来源:环球市场播报 周一, 甲骨文股价下跌4.5%,此前报道称,这家云计算公司与OpenAI和软银的...
氨氯地平阿托伐他汀钙片用药推荐 在中国,高血压与高血脂常常结伴而行,据数据显示,不少高血压患者同时合并血脂异常。这两种疾病叠加,会让...
中国资产大涨!苹果市值一夜增超... 当地时间2月24日,美股三大指数集体收涨,纳指涨1.04%,标普500指数涨0.77%,道指涨0.7...
上节育环后需要注意什么 一、休息与活动 上节育环后要适当休息,避免剧烈运动和重体力劳动,一般建议休息1 - 2天。因为过早进...
挖矿收益不足3美分!比特币暴跌... 来源:环球市场播报 TMG Core 展台的液体浸没式冷却矿槽中的加密货币矿机。 罗森布拉特证券公...
众机构唱多三星电子:存储巨头冲... 财联社2月25日讯(编辑 史正丞)随着三星电子周二收涨3.6%,迈上每股20万韩元的历史新高,分析师...
增值税发票数据显示:春节假期消... 新华社北京2月24日电(记者刘开雄)记者2月24日从国家税务总局获悉,增值税发票数据显示,2026年...
从“向外求索”到“向内安顿”的... 从“向外求索”到“向内安顿”的消费觉醒 当商务宴席上的茅台与书房中静静摆放的谦夫子养生露酒同时出现在...
千寻智能完成近20亿元融资 北京商报讯(记者 陶凤 王天逸)2月24日,具身智能头部企业千寻智能宣布,近日连续完成两轮融资,金额...
原创 银... 最近不少人发现,家附近的银行网点悄悄关门了,有的贴出公告终止营业,有的直接撤柜清空,就连工商银行、建...
美联储理事库克称央行可能无法应... 来源:环球市场播报 美联储理事丽莎·库克警告称,美国央行可能无法应对因采用人工智能而导致的失业率上升...