上次专访Playback Designs总裁Andreas Koch,已经是五年前的事了,当年与大师一席谈话,完全解开了我对于数位讯源与DSD解码的许多疑问,至今依然令我印象深刻、获益良多。五年之后,Playback Designs推出全新Sonoma系列,终于盼到Andreas再度来台,我当然不放过这次机会,从Andreas口中问出更多独家技术与设计理念,以下就是这次访谈的完整记录。
Sonoma是你为Sony所设计的DSD录音剪辑工作站的名称,新推出的Sonoma系列与当年的Sonoma有何关连?
主要原因是这次Sonoma系列的许多核心技术,都是移植自Sonoma工作站,两者有许多共同之处,所以才引用了Sonoma这个型号。
Sonoma是我帮Sony开发的32轨SACD录音与剪辑工作站,目前仍是唯一「真正1 bit」DSD录音与剪辑设备。这个名称是Sony One-bit Mastering Audio Station的缩写,许多SACD内页都注明使用Sonoma录製,音响迷熟都悉这个名称,这也是我採用Sonoma为新产品命名的原因之一。除此之外,Sonoma也是旧金山的葡萄酒产区,我的家就在那裡,与当地的酿酒师熟识。原本我打算在每一部Sonoma产品的包装中附赠一瓶Sonoma产的红酒,那是品质可比DSD的好酒啊!可惜碍于许多国家的法规限制,这个想法难以实现。
全新Sonoma系列的机箱都颇为小巧,与之前的MPS-5、MPS-3 SACD唱盘有何不同?
因为日本Esoteric不再对外销售他们的SACD转盘机构,所以MPS-5、MPS-3在五年前就已停产。原本Sonoma系列将要推出的旗舰SACD唱盘,也因为这个变化而延后推出。目前推出的Merlot DAC等产品,其实只是Sonoma的入门等级。我一直想推出体积较小、价格合理的产品,让更多人可以体验DSD重播的真正实力,Merlot DAC等小型化的产品,就是依循这个理念而推出。
Merlot的DSD解码、时钟控制技术都与MPS-5相同,但是线路较为简化,MPS-5使用了三颗FPGA处理器,分别负责时钟控制、升频与DSD处理、面板逻辑控制;Merlot则用一颗FPGA负责所有数位运算。MPS-5的线路板分为数位、类比两块;Merlot则全部整合在一块线路板,但数位、类比的接地仍清楚区隔。MPS-5的类比输出採分砌式架构,Merlot的类比线路则接近MPS-3,但有大幅改良,线路面积更大,还加入耳扩线路,以及分砌式的类比音量控制。在等级上,Merlot介于MPS-5与MPS-3之间,更接近MPS-5一些,甚至有用家认为表现比MPS-5更好。
许多顶尖数位唱盘都採用Oppo的SACD转盘机构,即将推出的Sonoma旗舰唱盘也会选择Oppo吗?
Oppo的SACD转盘的确很可靠耐用,在前代MPS停产,新旗舰尚未推出的空窗期,我的确建议用家搭配Oppo播放机使用,还针对Oppo BDP-103推出了改装模组,让它可以直接输出SACD的DSD讯号。不过这毕竟是权宜之计,Oppo的转盘是为播放4K蓝光片而设计,使用了超快速的处理器,解码线路庞大,而且与显示幕整合一体,很难单独使用它的转盘。此外Oppo的转盘结构较为廉价,使用了太多塑料元件,我认为不符合高阶唱盘的要求,所以即将推出的旗舰唱盘将会採用日本製的SACD转盘机构。如果顺利的话,今年五月慕尼黑音响展就会发表。
“ 1 bit DSD解码先天没有非线性失真,声音更接近类比音质。”
你所研发的1 bit DSD解码技术,与市售的Delta-sigma DAC晶片有何不同?
只有真正的1 bit DSD解码,才能发挥DSD线性输出的优势,也才能跟PCM多位元解码技术有所区隔。目前只有用FPGA晶片跑自行设计的演算法,才能做到真正的1 bit DSD解码。市售Delta-Sigma DAC晶片则只有输入端接收1 bit DSD讯号,接下来随即转换为多位元PCM,进行複杂的滤波处理,用陡峭的滤波线路完全滤除噪讯,测试规格虽然优异,但听感上却难以摆脱「数位声」,丧失了DSD接近于类比音质的最大优势。
为何厂製晶片不採用1 bit DSD解码呢?
晶片厂最重视的要素有二,一是製造成本,二是规格数据。1 bit DSD解码的噪讯太高,规格数据不好看,晶片厂怕客户不买单,自然不会想要开发这种晶片。
难道1 bit DSD解码的噪讯不会影响听感吗?
DSD大部分的噪讯都在人耳听感范围之外,就算落在可闻频段,也会被人耳滤除,因为DSD的高频噪讯是恆定的,不会随著音乐讯号变动,人耳机制可以轻易的过滤掉这种噪讯。这就像是空间中的空调噪音,只要音量低到一定程度,人耳就不会察觉。如果用陡峭的滤波线路将这些噪讯切掉,测试数据虽然漂亮,但是却会製造更多非线性失真,对听感伤害更大。所以我一直坚持数位滤波线路不能只靠仪器测试,更重要的是以实际听感作为设计的标准。
PCM解码又有什麽问题?
多位元PCM解码的每一个位元比重都不同,无法避免非线性问题。以PCM解码最理想的Ladder DAC架构为例,就算使用了最精密的电阻建构R2R解码阵列,也不可能保证每一个电阻的数值都刚好是前一个电阻的两倍,总会有些微误差,还会受到温度变化的影响,这些变数都会造成非线性失真,对听感造成严重的影响。
PCM解码的另一个问题是使用了Brickwall滤波线路。以44.1kHz的PCM讯号为例,Brickwall滤波线路一刀切掉了20kHz以上的频率,不但不符合人耳的听感特性,而且还会产生更严重的Pre Ringing问题。Pre Ringing很类似声波的绕射现象,讯号会在20kHz忽然截断的锐角处,产生另一个绕射波,让我们在实际讯号尚未播出前,就预先听到还没有产生的声音,时间差即使只有10到15毫秒(毫秒=千分之一秒),但是人耳依然可以察觉这种不自然的声响状态,构成所谓「数位声」的元凶。
反观DSD解码,因为只有一个位元,等于永远只经过一颗电阻,先天架构就不会产生非线性失真,这是DSD相较于PCM解码的最大优势。除此之外,即使是最基本的一倍DSD(取样率为CD的64倍,也称为2.8MHz DSD或DSD64),虽然高频延伸只到20kHz(20kHz以上会因为Noise Shapping而产生噪讯),但20kHz之后依然可以听到些微讯息,讯息量的滚降是和缓的,没有一刀切断的锐角,不会产生Pre Ringing,声音更为自然,也更符合人耳的聆听状态。
为何厂製DAC晶片不採用较为和缓的滤波线路呢?
现代许多DAC晶片藉由升频大幅提高取样频率,的确可以搭配较为和缓的滤波线路,但是测试数据依然不够理想,晶片厂担心卖不出去,所以此类DAC晶片其实依然使用了Brickwall滤波线路,只不过将截断点移到更高的频率,Pre Ringing的时间差会缩短,对听感有帮助,但是人耳仍可察觉,依然无法完全摆脱不自然的「数位声」。
理论上96kHz的高解析PCM讯号,高频延伸可达40kHz,在这种极高频产生Pre Ringing,人耳也可以察觉吗?
日本曾有研究报告指出,人耳的聆听范围虽然是20Hz到20kHz,但是在聆听暂态讯号(Transient signal)时,人耳其实是可以听到100kHz以上的极高频的。所以用Brickwall滤波切掉40kHz以上高频讯号,不但切掉了某些我们事实上可以听到讯号,其所产生的Pre Ringing也依然可被人耳察觉。
Merlot DAC的液晶萤幕看似复古,但是这种萤幕本身不需要时钟振盪器控制,不会干扰DAC的时脉,有助于降低时基误差。
所有进入Merlot DAC的PCM讯号,都会先转换为DSD格式,再进行1 bit DSD解码吗?
是的,PCM会先转换为DSD格式再解码。不过在转换之前,必须经过我开发的可变滤波技术先行处理,这种滤波演算法会即时分析PCM讯号的暂态变化状态,即时切换不同的滤波线路。例如重播和缓的小提琴演奏,或是瞬间铙钹敲击两种不同的乐段,就必须搭配不同的滤波线路,才能彻底消除PCM的Pre Ringing问题,再生更接近于类比的声音特质。
值得一提的是,这套滤波系统必须用特殊的测试讯号进行测试,如果用一般测试讯号,会得到很怪异的数据。这就是为何MPS-5当年推出时,有些媒体发现测试数据很差,但是声音表现非常好的原因。
所以用一般电脑软体进行DSD与PCM的转换,效果可能不尽理想?
我不知道其他软体的演算法是如何设计的,但是DSD与PCM的转换并不只是转换档案格式而已,而是取样率的转换,本质上就不是无损的转换,所以演算法影响重大。从DSD降转为PCM问题不大,但是从PCM转换为DSD,就必须注意PCM的暂态响应变化问题。
你曾经为文论述DSD256(四倍DSD取样率,也称为11.2MHz DSD或Quad DSD)的缺点,可否详细说明原因?
SACD推出之时,一倍DSD的噪讯在20kHz出现,太接近人耳可闻频段。两倍DSD将噪讯推向40kHz,的确是一大进步。许多人以此类推,认为四倍取样率的DSD256一定更好。但事实上,DSD256的高频虽然进一步延伸到80kHz,但是对大多数录音来说,40k到80kHz的极高频讯息量微乎其微,对听感帮助不大。但另一方面,取样率越高,每一个取样的讯息量越少,承受的恆定杂讯量却并未减少,讯噪比因此大幅劣化。由此可证,DSD256的缺点已经大过优点,并非最理想的DAC解码格式。我曾经做过实验,用DSD256直接输入1 bit DSD解码线路,结果证明噪讯对听感的确已经造成影响。
值得注意的是,DSD256虽然不适合DAC解码,但是却适用于录音端的ADC转换,因为类比转换为数位的Delta-Sigma调变类似回授线路,回授时间必须越短越好。DSD256每一个取样的时间是DSD128的一半,精确性因此比DSD128更高。此外DSD256更高的取样率,对于转换为PCM进行混音后製也有帮助。
既然如此,为何许多DAC依然支援四倍DSD?
因为他们使用的厂製DAC晶片已经完全将噪讯滤除,所以就算是对应八倍DSD,也不会察觉任何问题。可惜的是,这些DAC也因此无法展现DSD的真正实力,因为这些晶片的处理核心实际上都是PCM架构。
但是Merlot DAC为何也支援DSD256,会先将其转为两倍DSD再解码吗?
DSD256在解码时虽然有缺陷,但是将原本的高取样率丢弃太可惜,所以我没有将其降转为DSD128,而是另外开发一套演算法,藉此提升讯噪比。
其实DSD256的问题非常类似数位相机的感光元件,数位相机不断往高画素发展,但是在相同尺寸的感光元件中,画素越高,每一个画素接收到的进光量越少,由元件产生的恆定噪讯相较之下越大,此时必须搭配速度更快的处理器,才能消除噪讯提升画质。简单的说,数位相机的画素提升,其实是跟著速度更快的处理器一同发展的。用数位相机的例子,或许更容易理解DSD取样率提升所遭遇到的问题。
你非常坚持所有数位线路都由单一主时钟控制时脉,原因为何?
许多DAC直接套用现成的晶片或数位线路模组,例如转盘、数位处理,甚至萤幕控制线路都有各自的时钟。这些时钟会相互干扰,对听感造成影响,所以我设计的数位讯源一向只用一个时钟发送时脉讯号。对应PCM讯号时,虽然必须具备44.1kHz与48kHz两种时脉频率,但是其中一个运作时,另一个的电源就会切断,彼此不会造成影响。
隶属于全新Sonoma系列的Merlot DAC虽是入门等级,但是关键技术移植自Andreas当年替Sony开发的Sonoma工作站,实力甚至有机会超越前代旗舰MPS-5。
Merlot DAC这次採用的MEMS时钟有何优点?
这种MEMS(Microelectromechanical System Oscillator)微机电震盪器,是针对传统石英震盪器的缺点而改良的产物。它的时脉更精准,稳定性更高,较不受机械振动、温度变化的影响。缺点是价格比一般石英震盪器贵上好几倍,而且消耗功率较大,3C电子产品的接受度不高,但是非常符合Hi End数位讯源的需要。在Sonoma系列的研发阶段,我曾经做过许多试作机,配备各种不同的时钟产生器进行盲眼测试,结果发现MEMS毫无疑问声音最好。MPS-5只要更新韧体,一样可以换装MEMS时钟提升表现。
外接更精密的原子钟有帮助吗?
外接时钟是因应录音室环境而诞生的产物,录音室必须整合录音、混音、影像等等各种数位设备,所以必须靠外接时钟统一控制时脉同步,家用数位讯源并没有这种需要。最理想的时钟必须尽量靠近DAC线路,两者的距离一旦拉远,就容易被杂讯干扰。外接时钟透过导线连接,杂讯干扰的问题更为严重,时基误差会大幅提升,对于重播并没有帮助。
我还记得上回你曾经提到时基误差有好、坏之分?
时基误差的确并非全部都该去除,早在MPS-5推出时,我就在时钟线路中导入这种观念。有一种坏Jitter(时基误差)产生于录音阶段,夹杂在音乐讯号中,无法由DAC的数位处理移除,但是可以藉由DAC所产生的好Jitter遮蔽,降低坏Jitter的影响。这种好Jitter类似白色噪音,是恆定的,不会随音乐讯号而变动,所以不会影响听感。有些DAC宣称配备时基误差超低的原子时钟,会将好Jitter也一併消除,反而凸显了录音中的坏Jitter,声音不一定更好。
有些人认为你所提倡的DoP传输技术会减损声音表现,这是真的吗?
DoP是DSD Over PCM的缩写,简单的说,就是将DSD伪装成PCM进行传输。当年我之所以研发这项技术,是为了解决S/PDIF介面无法传输DSD的问题,但那时名称可能没取好,让许多人误以为DoP是将DSD转换为PCM再进行传输。事实上,DoP完全没有进行任何转换处理,传送的依然是原始的DSD格式。这个过程就像是在黑巧克力外面包上了白巧克力的糖果纸,运送到目的地后,再把糖果纸打开,裡面的黑巧克力原封不动。DoP所做只是包上与拆开糖果纸的动作而已。
事实上,就算不透过DoP,用USB直接传输DSD讯号,一样会经过类似的包装与拆开动作,因为USB必须将DSD拆解为一个一个8 bit的封包,才能传输DSD讯号,这个手续跟DoP其实是一样的,只是大家不知道USB在幕后会做这样的工作而已。
最后请谈谈Merlot DAC类比输出线路的特点?
Merlot DAC的类比线路使用了OP晶片,不过搭配了特殊线路。我知道音响迷偏好分砌式线路,当年MPS-5就採用了分砌式的类比线路,声音表现的确很好。但是那时我就开始进行OP晶片的研究,发现OP晶片其实并不差,只不过每一种OP的特性不同,必须量身打造符合其特性的线路,才能完全发挥实力。
Sonoma系列应用拓扑图(含数字和模拟两大范畴)
在Merlot DAC的开发阶段,我试作了200个用晶体搭建的分砌式放大线路,结果其中10%规格未达标准,其馀大多数必需要经过补偿修正,可见分砌式线路的变数实在太多,包括温度变化、焊锡、线路板、甚至晶体的接脚都会影响精密度与一致性,出错的机率很高。反观OP晶片,不论精密度与稳定性都超越分砌式线路。我曾经做过实验,用分砌式架构搭出OP线路,与架构相同的OP晶片相较,声音几乎分不出差异,证明OP晶片的声音并不会比较差。