小说

HIFI日记:什么是时钟:一切声音的起点

一直以来,包括BLOG主在内,在讨论数字音频系统的时候,都经常会把“时钟”、“抖动”、“同步”挂在嘴边。这并不是一个新概念,早在CD出现的百年前,时钟就已经伴随着数字音频的诞生而出现。发展到今日,不管是新烧、老烧,围绕时钟的话题仍然子啊争执不休。在当前几百块的数字界面就能标称“飞秒时钟”的时代,为什么我们还经常会说一个系统的“时钟”不行?要彻底理解这件事,我们就需要真正深入了解“时钟”在数字音频中到底是什么,以及硬件产品中的“时钟参数”跟烧友口中的“时钟听感”到底是不是一回事。

一、时钟在数字音频中的核心作用:时间的标尺

数字音频的本质,是把连续的声音波形,在时间轴上切成一个个点(采样)。要还原这些点,就必须用一把精准的“时间标尺”去度量它们——这把标尺,就是时钟(Clock)。

如果录制和回放的时间标尺完全一致,声音就能原样重现。如果回放时的标尺忽快忽慢、忽长忽短,那么原本均匀排列的采样点就会被“拉歪”——轻则声音发糊、声场混乱,重则产生可闻的失真。因此,时钟的精度,决定了这把时间标尺的准度。

二、时钟的物理学定义:频率、相噪与抖动

要量化时钟的好坏,主要看它的精度

2.1 理想时钟 vs 现实时钟

  • 理想时钟:一个完美的方波或正弦波,每个周期的时间间隔完全相等,像一条笔直的马路。
  • 现实时钟:受限于晶体切割精度、电路噪声、温度变化等因素,每个周期的长度会存在微小的、随机的偏差。这就像马路上布满了坑洼,车开过去会颠簸。

2.2 衡量时钟精度的两个核心指标

指标含义类比
频率精度(ppm)时钟实际频率与标称频率的长期偏差手表每天快多少秒
相位噪声(dBc/Hz)时钟信号在频域上的纯净度,描述噪声功率在频率偏移上的分布手表走动时,每一下的快慢波动情况
抖动(fs/ps)时钟周期在时域上的瞬时偏差(通常以秒为单位),是相位噪声在频域上的积分结果手表每秒钟的走时是否均匀,是“快慢波动”的累计程度

对于音频回放来说,短期抖动(相位噪声)的影响远远大于长期频率(频率精度)偏差。因为长期偏差(比如时钟偏了10ppm,即百万分之十)只是让音乐整体稍微变快或变慢一点,人耳几乎无法察觉;而短期抖动会直接破坏采样点的时间对齐精度,导致声音模糊、声场扁平。

三、频点

在晶振与时钟的语境中,频点指的是晶振输出的标称中心频率,也就是它设计用来稳定产生的那个特定频率值。例如 22.5792MHz24.576MHz48MHz100MHz 等,都是常见的频点。

3.1 频点是怎么来的?

频点由晶体本身的切割尺寸和电路设计决定,一旦出厂就固定。它代表了晶振“应该”输出的频率,但在实际工作中会受温度、老化等影响产生微小偏移(即前面提到的频率精度 ppm)。

3.2 音频设备中常见的频点及其用途

频点典型用途与音频采样率的关系
22.5792MHz44.1kHz 家族的音频主时钟(MCLK)44.1k × 512 = 22.5792MHz
88.2k × 256 = 22.5792MHz
176.4k × 128 = 22.5792MHz
24.576MHz48kHz 家族的音频主时钟(MCLK)48k × 512 = 24.576MHz
96k × 256 = 24.576MHz
192k × 128 = 24.576MHz
48MHzUSB 2.0/3.0 控制器的参考时钟(如 TUSB7320 默认)与采样率无直接倍数关系,主要用于数据传输
100MHzPCIe 总线参考时钟、USB 3.0 控制器直接参考与音频采样率无关
10MHz外部高精度时钟源(OCXO)的参考频率作为系统统一时钟基准,通过 PLL 合成其他频点

3.3 频点 ≠ 音质

很多初烧误以为“频率越高,声音越好”,这是一个误区。频点本身只是数字电路的工作参数,决定音质的是该频点下的相位噪声(dBc/Hz)和抖动(fs)。

  • 一颗 22.5792MHz 的飞秒晶振,虽然频率远低于 100MHz,但用在数字界面中能提供极低时基误差,声音纯净。
  • 一颗 100MHz 的普通贴片晶振,频率虽高,但抖动大、近端相噪差,反而可能劣化音质。

3.4 为什么音频会有 22.5792M 和 24.576M 这两个“奇怪”的频点?

因为它们与标准的音频采样率(44.1kHz / 48kHz)是整数倍关系

  • 22.5792MHz = 44.1kHz × 512
  • 24.576MHz = 48kHz × 512

使用这样的整数倍频点,DAC 内部只需简单的分频即可生成所需采样时钟,无需复杂的分数 PLL,从而最大限度降低引入的抖动。这也是为什么高端解码器往往同时配备两颗晶振——一颗负责 44.1k 家族,一颗负责 48k 家族。

四、锁相环(PLL)

在数字音频系统的时钟链路中,PLL(Phase-Locked Loop,锁相环) 是一个无处不在却常被忽视的核心模块。简单来说,它就像一个“频率翻译官”,能把一个参考时钟的频率“翻译”成另一个需要的频率,同时还能净化时钟信号中的抖动。

4.1 PLL 的基本工作原理

一个典型的 PLL 由四个基本模块构成,形成一个闭环反馈系统:

模块功能类比
鉴相器(Phase Detector)比较参考时钟和反馈时钟的相位差指挥家听着乐队的节奏,与自己手中的指挥棒对比
环路滤波器(Loop Filter)滤除高频噪声,输出平滑的控制电压指挥家根据听到的差异,调整自己的指挥幅度
压控振荡器(VCO)根据控制电压输出对应的频率乐队根据指挥的动作调整演奏速度
分频器(Divider)将 VCO 输出频率分频后送回鉴相器把乐队的整体速度换算成“每拍”的节奏反馈给指挥

工作流程:PLL 不断比较参考时钟与 VCO 分频后的时钟,当两者相位一致时,环路“锁定”。此时,VCO 的输出频率 = 参考频率 × 分频系数。

4.2 PLL 在音频系统中的核心作用

频率合成:生成所需频点

音频系统中充斥着各种不同频率的需求,PLL 让它们可以共用同一个参考源:

  • 10MHz 外部时钟输入 → PLL → 22.5792MHz(给 DAC 做主时钟)
  • 10MHz 外部时钟输入 → PLL → 100MHz(给 USB 控制器)
  • 48MHz 板载晶振 → PLL → 5GHz(USB 3.0 物理层串行时钟)

抖动衰减:净化时钟信号

高性能 PLL 的环路滤波器相当于一个低通滤波器

  • 高频抖动(远端相噪):被滤除,VCO 输出更干净
  • 低频变化(近端相噪/频率漂移):被保留,VCO 跟随参考时钟

这就是为什么一颗普通的 10MHz 恒温晶振(OCXO),通过优质 PLL 可以合成出极高品质的 22.5792MHz 音频时钟——PLL 既完成了频率转换,又起到了净化作用。

4.3 整数倍 PLL vs 分数倍 PLL

类型工作原理优点缺点
整数倍 PLL分频系数为整数(如 ×4、×10)设计简单,引入的相位噪声低输出频率只能是参考频率的整数倍,不够灵活
分数倍 PLL分频系数为分数(如 ×4.1667、×221.5)可以合成任意频率,灵活性高可能引入小数杂散(spurs),对电路设计要求高

在音频应用中:

  • 整数倍 PLL 更受青睐,因为理论上更“干净”。例如 25MHz × 4 = 100MHz,或 10MHz × 100 = 1GHz 再分频。
  • 分数倍 PLL 在需要从单一参考合成多个不相关频率时不可避免,高端 PLL 芯片(如 SI5381)通过优化设计将小数杂散压制到极低水平。

4.4 音频设备中的 PLL 应用实例

设备类型PLL 的作用典型芯片
USB 3.0 卡将板载 48MHz 晶振倍频到 USB 物理层所需的高频集成在 TUSB7320 主控内部
数字界面从 22.5792M/24.576M 音频晶振合成 USB 接收所需时钟集成在 XMOS 或界面主控内部
高端 DAC接收外部 10MHz 参考,合成音频主时钟及系统时钟SI5381、CS2100
独立时钟输出 10MHz 参考,或直接输出字时钟(44.1k/48k 倍频)定制 OCXO + 分配电路

4.5 PLL 的“双刃剑”特性

PLL 是音频时钟链路上必不可少的环节,但它并非完美无缺:

  • 好的 PLL 可以大幅提升时钟质量:用一颗优质 OCXO 作参考,PLL 可以合成出接近参考源品质的各种频率。
  • 差的 PLL 会拖累好晶振:即使前面用了飞秒晶振,如果 PLL 设计不良(环路滤波器不佳、VCO 噪声大),输出时钟的抖动反而可能劣化。

这也是为什么一些高端设备强调“直接时钟路径”——尽可能减少 PLL 级数,或让音频主时钟直接由晶振驱动而不经过 PLL。

五、各类时钟晶振介绍

5.1 SPXO:普通晶体振荡器

  • 工作原理:最简单的振荡器,仅由石英晶体和起振电路组成。其输出频率随环境温度变化而漂移。
  • 性能特点
    • 温度稳定性:较差,通常在 ±20ppm 到 ±50ppm(ppm为百万分之一)。
    • 抖动:通常在几十皮秒到上百皮秒。

5.2 TCXO:温度补偿晶体振荡器

  • 工作原理:在SPXO的基础上,增加了一个温度补偿电路。通过感应环境温度,自动调整电压来抵消晶体因温度变化产生的频率漂移。
  • 性能特点
    • 温度稳定性:大幅提升,通常可达 ±0.5ppm 至 ±2ppm
    • 抖动:通常低于 SPXO,可达几百飞秒到几皮秒。
    • 优势:体积小、功耗低、开机即用(无需预热)。

5.3 OCXO:恒温晶体振荡器(默认为AT-Cut)

  • 工作原理:将石英晶体放置在一个微型恒温槽(烤箱)中,通过加热电路将晶体温度恒定在晶体特性曲线的拐点温度(通常是晶体振荡器内部温度变化最小的一点,该点温度系数为零或接近零)附近(通常是 75°C – 95°C)。无论外部环境如何变化,晶体始终工作在这个“黄金温度点”。
  • 性能特点
    • 温度稳定性:极高,通常可达 ±0.005ppm 至 ±0.05ppm
    • 相噪/抖动:极低。顶级 OCXO 在 10Hz 偏移处的相位噪声可达 -100 dBc/Hz 甚至更低,短稳极佳。
    • 代价
      • 功耗大:开机时通常需要 1-3 瓦功耗用于加热,稳定后也需要几百毫瓦维持恒温。
      • 预热时间:需要通电预热 5-30 分钟 甚至更久才能进入稳定状态。
      • 体积大:因为有恒温槽结构,体积通常较大。

5.4 SC-OCXO:应力补偿切割恒温晶振(这里的“SC”不是型号前缀,而是晶体切割方式。)

  • 切割方式对比
    • AT-Cut:最常见的切割方式。工艺成熟、成本低,但存在“温频拐点”(温度与频率关系曲线上的一个点,在此点附近频率随温度变化率最小)较陡峭的问题。
    • SC-Cut:一种高级应力补偿切割方式,晶体呈现双旋转结构。
  • 性能特点
    • 稳定性:相比 AT-Cut OCXO,SC-Cut 的短期稳定性(阿伦方差) 提升约一个数量级。
    • 相噪:近端相噪(1Hz-10Hz偏移)表现极佳,这是音频听感中“背景黑度”和“结像稳定”的关键。
    • 抗干扰:对重力效应、加速度敏感度远低于AT-Cut。
    • 老化率:年老化率极低(±0.05ppm/年以下),可以长期保持精准。

六、数字音频系统中的时钟链路

理解了时钟本身,我们再来看它在整个系统中的流转路径。一个典型的PC-HiFi系统,会经历至少三次“时钟转换”。

6.1 第一站:PC/数字播放器-USB口(发送端)

USB卡插在电脑主板上,它的任务是把电脑里的音频数据通过USB线发送出去

USB卡上有自己的时钟晶振,常见的有:

  • USB 3.0主控:通常使用48MHz晶振(受芯片方案约束)
  • USB 2.0主控:可能使用24MHz、25MHz或48MHz

这个时钟的作用是保证USB控制器能以正确的节奏把数据推送到USB总线上。但它只负责“传输”,不负责“声音好不好”。只要数据不传错,这个时钟的抖动对音质的影响相对有限——因为后面还有更关键的环节。

6.2 第二站:数字界面-USB口(接收端)

数字界面通过USB线收到数据后,要做两件事:

  1. 把USB总线上的数据正确接收下来
  2. 将数据以音频时钟的节奏发送给DAC

这里就出现了一个核心矛盾:USB传输的节奏和音频回放的节奏,是两套完全独立的时钟系统。

USB接收芯片有自己的参考时钟(比如24MHz、25MHz或48MHz),用于驱动USB物理层通信。但音频回放需要的是22.5792MHz或24.576MHz的音频主时钟(MCLK)——前者对应44.1kHz采样率家族,后者对应48kHz家族。

异步模式的出现,完美解决了这个矛盾:

  • 数字界面以自己的音频晶振(22M/24M)为基准
  • 通过USB协议的反馈端点,告诉电脑:“我现在的时钟跑得是快还是慢,请你按我的节奏发数据”
  • 电脑端的USB卡收到指令后,调整发送速率来匹配

这意味着:真正决定音质的,是数字界面的音频晶振,而不是前面USB卡的晶振。 前端的USB卡只要保证数据完整传输即可,后端的音频时钟才是声音的“总指挥”。

6.3 第三站:DAC(数模转换)

数字界面把数据整理好后,连同音频主时钟(MCLK)一起送给DAC芯片。DAC根据这个时钟,把数字采样点一个个还原成模拟波形。

如果这个时钟有抖动,那么DAC在还原时就会出现时基误差(JITTER)——本该在正确时间点出现的电压值,出现在了错误的时间点上。这种误差直接表现为:

  • 声音模糊、细节丢失
  • 声场收窄、定位不准
  • 高频毛躁、不耐听

所以,整个系统里最关键的时钟,就是最后一级DAC的音频主时钟。

七、统一时钟

上面说的异步模式已经让系统可以“以接收端为准”。但如果你追求极致,还有一个更彻底的方案:用一个外部高精度时钟,同时给系统中的所有设备提供参考。

7.1 为什么要统一时钟?

在普通系统中,USB卡有自己的晶振,数字界面有自己的音频晶振,DAC可能还有自己的晶振。这三颗晶振各自为政,虽然通过异步模式可以协调,但它们之间没有共同的“时间基准”。

统一时钟的思路是:用一个极高精度、极低相噪的10MHz恒温晶振(OCXO),通过高性能PLL芯片(如SI5381),同步生成所有设备需要的时钟频率:

设备需要的时钟如何生成
USB卡100MHz(或48MHz)10M → PLL → 所需频率
数字界面22.5792M / 24.576M10M → PLL → 音频主时钟
DAC同22M/24M直接使用界面的时钟,或单独合成

这样一来,整个系统从USB传输到DAC转换,全部共用同一个时间基准,消除了各级时钟之间的“相对抖动”。

7.2 统一时钟的门槛

这个方案虽然理想,但门槛不低:

  • 设备必须支持10MHz外部时钟输入:不是所有USB卡和DAC都有这个接口
  • 需要一台多路输出的高品质10MHz时钟:好的恒温晶振(OCXO)价格不菲
  • 需要高性能PLL芯片:如SI5381,能把10M整数倍或分数倍合成到各种频率
  • 阻抗匹配:这是很多人忽略的点,链接数字子时钟部分的10MHz时钟通常用50Ω同轴线,而链接音频子时钟常用75Ω同轴线,这个在使用外接时钟时需要格外注意。

八、时钟听感

技术方面聊完了,我们聊聊听感,实际上时钟对音频的影响早就不是什么玄学,无论是实际的技术层面还是听感层面,都已经得到了认证。但随着这十年来时钟的价格逐渐走低,HIFI产品的设计也越来越成熟,很多产品出厂时,已经有相当不错的时钟(957/338大行其道)。继续上更好的10M统一时钟,对很多烧友来说,其实并不能起到“一耳朵”的变化。

8.1 时钟改善的可感知维度

当一个系统的时钟质量得到提升(比如从普通晶振升级到飞秒晶振,或外接10M恒温钟),烧友通常会描述以下变化:

听感描述技术对应
背景更黑底噪降低,弱音信号不被掩埋
结像更清晰时基误差减少,左右声道时序更精准
声场更规整乐器定位更准确,空间感更真实
高频更顺滑高频毛刺减少,延伸更自然
微动态更好极弱音的还原能力提升

这些变化的核心逻辑是:时钟抖动降低 → 时基误差减少 → 采样点还原更精准 → 声音的“形”更准。

8.2 高电平动态 vs 低电平动态

参考我们之前讨论“动态”时的框架,时钟的影响更偏向低电平动态(微动态)

  • 低电平动态:指小音量时的细节再现、强弱对比。时钟抖动的降低,直接改善了极弱信号的还原精度,让三角铁的余韵、录音棚的空气感更加真切。
  • 高电平动态:指大音量时的爆发力、瞬态反应。这部分主要取决于放大器的电流输出能力、电源储备,时钟的改善对其影响相对间接。

因此,时钟升级带来的提升,往往不是“更爆了、更猛了”,而是“更安静了、更准了、更耐听了”。

8.3 时钟升级的收益递减规律

时钟质量从“很差”提升到“正常”,收益巨大;从“正常”提升到“很好”,收益明显;从“很好”提升到“顶级”,收益微小。对于大多数烧友来说,数字界面内置的飞秒晶振已经足够好,不需要再折腾外部10M时钟。只有当你系统其他环节(起码大件平均5位数以上)都已经足够敏感,时钟才会成为瓶颈。

九、结语

时钟,是数字音频系统里最容易被忽视,却又最核心的环节。它不像DAC芯片那样有醒目的参数标榜,也不像放大器那样直接驱动耳机,但它默默地为整个系统提供着“时间秩序”。从USB卡上的48MHz晶振,到数字界面里的22M/24M飞秒时钟,再到统一系统时钟的10M恒温晶振——每一级时钟的提升,都在为还原一个更精准的“时间轴”而努力。

而最终,这个时间轴上的每一个采样点,都会化作我们耳中声音的形体、位置、空气感、情绪。时钟的改善,往往不是“换了一种风格”,而是“让音乐更像它本来的样子”。

2026年上半年,BLOG主因为工作和游戏的双重压榨,导致写稿速度明显变慢。这篇关于时钟的科普,应该是全网最详细、最透彻的了。算是对上半年各位朋友的一个交代=W=

留言

您的邮箱地址不会被公开。 必填项已用 * 标注