一直以來,很多Hi-Fi發燒友在聊音樂的時候,經常會談論到關于音樂文件采樣、位深、碼率的相關技術參數。44.1kHz/16bit、96kHz/24bit、192kHz/24bit這種PCM波形規格到底意味著什么?DSD這種全新的規格音質有何優勢?隨著越來越多初燒開始接觸數字音樂,本期就以純理論的角度為大家對比一波WAV和DSD兩種文件給大家進行參考。

  相信不少的朋友都知道44.1kHz是采樣率參數,但卻不知道到底什么是采樣率。所謂采樣率,則是錄音設備每秒采集聲音樣本信息的頻率。44.1kHz采樣率,即是在錄音時,設備每秒記錄44100次。

  為什么無損音樂的采樣率會被定位44.1kHz?這其實并非偶然。根據奈奎斯特采樣定理(為了不失真地恢復模擬信號,采樣頻率應該不小于模擬信號頻譜中最高頻率的2倍),采樣率44.1KHz的數字音頻格式可以無損地記錄22.05KHz以下頻率的音頻信號,其剛好超過了人耳的聽力范圍20kHz。對于PCM波形來說更高的采樣率意味著曲線更加接近真實。

  DSD64的采樣率為2.8244MHz,相等換算的話就是CD的44.1kHZ的64倍采樣率,也就是2824400次/秒。與PCM脈沖編碼調制不同的是,DSD在錄制時使用PWM脈沖寬度調制,因此在圖像呈現上來看也與PCM有所不同,具體筆者會在下面討論。

  上面提到采樣率是每秒記錄聲音的次數。對于用數字波形記錄聲音的方式來說,如果橫軸是時間,想要出現完整的波形,那么就需要一個縱軸參數來為波形的“高度”進行設定。對于音頻來說,這個高度信息,就是Bit(位深)。

  所謂16Bit,其真實含義是用16位的二進制數來表示采樣點的電平(縱軸高度)。在PCM波形中,縱軸高度越高、聽感的響度就越高。位深對音樂文件的動態表現一般直接掛鉤,16比特整數可以儲存2的16次方(65536)個不同的數值,每增加1比特代表縱軸的精密度翻一倍。

  相比于DSD來說,PCM技術于很早之前就應用于音頻領域,因此其文件有很多的變種。正常的無損無壓縮PCM波形的文件是WAV,我們日常下載到的flac、ape這種無損格式都是將WAV文件“無損傷壓縮”的音樂檔案,再次解壓縮后數據基本不受影響(但不少數字音樂檔案發燒玩家發現聲音有“打折扣”的情況)。mp3、wma等格式為有損壓縮格式,再次解壓為WAV后會造成數據損失。

  PCM和DSD本質有何不同?

  PCM和DSD在錄音時使用的就是兩種完全不同的系統;PCM脈沖編碼調制:首先將連續的模擬信號(音樂原聲)離散并抽樣量化,根據瞬時點參數構建PCM波形。簡單、直觀、文件占用空間低是它的優勢,其劣勢在于量化誤差較大。

  DSD在錄制時使用了另外一種調制——PWM脈沖寬度調制:它是將模擬信號轉換為脈波的一種全新的記錄方式。在記錄時,DSD的模數轉換A/D部分并非如WAV一樣,而是通過采樣點實現增/不變/減的判斷。打個比方吧,讓PCM和PWM(DSD調制技術)一起記數字,PCM在記錄一串數字時是1,2,3,4,3,而PWM則是0,1,1,1,-1(只取差值)。

  

 

  PCM、DSD的讀取方式

  PCM波形的橫軸為采樣點、縱軸為位深,在做放音的數模轉換D/A時,數字波形中的每個點會轉換成其獨有的二進制編碼被指定的DSP或者CPU進行處理實現轉換。對于PCM波形來說,由于每次采樣都有嚴格的時間限制,因此PCM系統在聲音回放時對晶振的需求的極高,如果解碼時兩方出現任何誤差都會導致失真。同時,由于采樣率遠低于DSD,其在取樣時的受量化誤差影響,其理論上的信噪比也遠低于DSD。

  DSD文件的PWM波形在橫縱軸設置上與PCM相同。不同的是,PWM波形的采樣點深度僅為1bit,播放方式為錄制的逆過程(具體參考2.1)。相對于PCM來說,DSD的優勢是有效的防止了晶振問題,且動態響應也更加精準。不過由于其過于精準的特性,音樂的響度一般來說也是偏低的,這也是為什么不少Hi-Fi產品會專門為DSD播放專門做一個增益功能。還有就是DSD的文件占用空間巨大、解析耗電量大,非常吃硬盤資源。

  兩種數字音頻編碼區別?

  和CD技術一樣,DSD(Direct Stream Digital,直接比特流數字編碼)同樣是由索尼和飛利浦兩大技術巨頭聯手開發的數字音頻技術。那么兩者之間有什么因緣和異同呢?

  首先,我們可以把數字音頻文件的基本數據單元,理解為“采樣點”,播放數字音頻文件的本質,就是讀取每個采樣點上記錄的數據。在同一個數字音頻文件中,每個采樣點間的時間間距,都是相同、固定的,因此,每一秒內采樣的次數越多,就意味著采樣頻率越高,記錄的數據量也就越大,重放音樂的信息量和音樂品質也就越好(理論上)。

  當然,不同的音頻技術,采用的數據記錄方式也是不同的;以我們日常接觸最多的CD為例,本質是一種PCM(Pulse-Code Modulation,脈沖編碼調制)音頻的載體,所以這里也先簡單介紹PCM技術的編碼原理。在對音頻信息進行記錄時,PCM的做法,是先按照一定的數據位深(數據值數量),設定一組電平值數據規則,然后按這個規則,對每個采樣點的電平值進行單獨記錄;從中我們可以理解:

  1. 每個采樣點,都是單獨度量各自采樣時刻的電平絕對值,采樣點之間相互獨立,無關聯也無影響;

  2. 數據位深越大,意味著電平值規則的數據量越大,每個采樣點的數據記錄也就越精細、豐富;

  3. 采樣頻率越高,也就是采用的采樣率越高,同樣意味著采樣數據更豐富,更接近原音原貌。

  常規的CD文件是16bit 44.1kHz的PCM音頻,也就是每秒鐘取樣44100次,并且用一組65536個值(=2的16次方=16bit)的規定電平,測量和記錄采樣時刻的電平值。

  而DSD,可以理解為是一種PDM(Pulse-Density Modulation,脈沖密度調制)技術,在每個采樣點,DSD文件只進行2個值(=1bit)的數據記錄,記錄的內容則是相比上一個采樣點記錄數值的信號電平變化(增大還是減小)。

  相比PCM技術,DSD每個采樣點只需做1bit位深的“1/0”記錄,同時采樣點之間數據互相關聯,整首音頻從開始到結束都可以視為是一個連貫、連續的整體(而不是如PCM那樣每個采樣點的數據本質各自獨立);當然,DSD也采用了遠遠高于PCM的采樣頻率,例如常規使用的DSD64,采樣率是2.8224MHz,也就是每秒鐘進行2824400次的采樣記錄,采樣密度是CD的64倍。

  兩者相比,PCM和DSD其實各有千秋。一方面,DSD技術的數據采樣記錄方向更為“線性”,時間密度也更高,采集到的數據量也先天較大,因此即便是SACD所采用的(最常規、入門的)DSD64音頻,對比CD這樣的傳統PCM音頻,在多個方面也都已經具有優勢;而另一方面,無論PCM還是DSD,最終的聲音品質其實還是取決于數據量,而數據量又直接取決于使用的采樣率和位深,因此采用更高采樣率和數據位深、數據容量更大的PCM音頻,在聽感上其實也一樣可達到“極高清”;并且,音頻的后期制作,編碼、解碼時芯片的時鐘精確度等技術問題,也都會對音頻的最終播放品質造成影響。

  事實上,對于消費者們來說,對待PCM和DSD音頻,其實也沒必要一定要分出個結果。目前市面上的高清音頻,依然是以各類PCM音頻為主流,但也不乏以DSD形式發行的作品,因此,一臺能夠同時玩轉PCM和DSD讀解播放的高品質數字播放器,無疑將會是發燒玩家們不可缺少的數字音源。

  相比于WAV,DSD雖然是理論上的信息量升級,但也為解碼設備的性能帶來了更大的挑戰。不開玩笑的說,有一套能夠發揮真正DSD實力音響設備的人,筆者身邊的專業用戶都很少,更別提便攜聽音了。Hi-Fi設備并非玄學,它也是一分錢一分貨的。就像很多人玩手游都能充個萬八千一樣:如果舍不得錢一步玩到位,那就一點一點升級Hi-Fi設備。如果把自己限制在一定范圍內,永遠無法發現外面世界的美好。