На что влияет разрядность и частота дискретизации динамиков
Бит против килогерца: что важнее?
Размышления об успехе 12-битной драм-машины E-Mu SP-1200 и довольно узкая динамика поп/рок-репертуара зародил еретические мысли. Оптимальны ли характеристики наших цифровых протоколов?
Любители студийного мастер-звука могут сердиться сколько угодно, но факт остается фактом. Формат Red Book при немыслимом для цифровых технологий возрасте 35 лет все еще остается основным контейнером для коммерческих фонограмм. Даже если вы слушаете ощипанный трек в MP3 или iTunes, его пропорции описаны в тех же 16 битах на опорные 44,1 кГц дискретизации. Много это или мало? Смотря что мерить.
Компакт-диск или файл в аналогичном формате в состоянии обеспечить 16 х 6 = 96 дБ между самым тихим и громким пассажем. Это очень даже немало. Техническим сигналом для лабораторных испытаний можно заставить ЦАП выдать такой показатель, но я не знаю реальных музыкальных событий с подобным размахом. Даже тот самый «1812» с пушечкой — там 60 дБ в самых пиковых моментах и чуть больше 20 дБ в среднем. В современной фонограмме показатели динамического диапазона сужены обычно раза в три.
По преданиям, Philips сначала хотела остановиться на 14-битном разрешении; умножаем 14 на 6 = 84 дБ, это по-прежнему выше уровня рокота самых дорогих виниловых трактов. Первое поколение ЦАПов Philips TDA1540 оперировало именно с 14 бит и ничего, многие винтажисты очень довольны этим чипом по сей день.
Первое поколение CD-плееров использовало 14-битный ЦАП Philips TDA1540
В общем, CD-качества вроде бы хватает с головой для самых смелых аудиозадач. И все-таки, когда сравниваешь мастер в Hi-Res и полученный из него стандартный Red Book CD, кажется, что-то утеряно. Где-то больше, где-то не очень — зависит от контента. Но и не забывайте, что ресемплинг и понижение битности понижается различными алгоритмами, так что итоговое качество для CD-печати получается гадательным.
Мой личный опыт возни с записью, редактированием и воспроизведением цифрового аудио по большому счету имеет две точки мнительности. Первая выглядит вполне технически обоснованной.
Мне категорически не нравится, что на аудиопотоке с дискретностью 44,1 кГц граничная частота лежит слишком низко, в области 20 кГц. Вроде бы там особо и не должно быть слышно, но как показывают графики работы цифровой фильтрации ЦАПа, в окрестностях творится черт знает что. Жесткий срез спектра записи, хотя в жизни имеет место пологое падение. Или наоборот, ранний завал из-за специфики фильтра. А еще какие-то паразитные гармоники на высоких частотах. Удельный вес относительно общего сигнала у них не очень большой, но все равно картинка получается неприглядная. Все вот эти оверсемплинги требуются из-за невозможности установить на 22,05 кГц нормальный аналоговый фильтр.
Было бы прекрасно, если бы в начале 80-х стандартом оставили дискретизацию 50 кГц первых цифровых рекордеров Soundstream. А еще лучше, если бы она составила примерно 60 кГц. Таким образом, мы бы получили достаточно протяженную АЧХ, обеспечивающую плавный спад всех музыкальных штрихов и нюансов до 30 кГц, как в хорошем магнитофоне или SACD. Вот выше уже действительно ничего нет. Но в итоге получилось по-другому.
До анонса компакт-диска цифровые рекордеры Soundstream записывали звук с параметрами 16 бит / 50 кГц
Sony выбрала значение 44,1 кГц из-за совместимости со стандартом PAL. Профессиональные видеомагнитофоны Betacam и VHS позволяли делать запись PCM-кода аудио. Три значения укладывались в каждую из 588 строк видеосигнала PAL, передаваемого с частотой 25 кадров в секунду: 3 х 588 х 25 = 44100. Вот такая арифметика.
Видеомагнитофон Sony с помощью процессора PCM-F1 мог записывать цифровой аудиокод
Дальнейшее развитие цифровых технологий записи и воспроизведения использовало кратное умножение базовых форматов CD и DAT — 44,1 и 48 кГц: т.е. 88,2, 96 кГц и так далее. Конечно, появилась возможность отодвинуть помехи квантования подальше в ультразвук, но ведь и кратно росли размеры аудиофайлов. А еще прибавка в полтора раза при переходе с 16 на 24 бит. А если это будет 32 бит? И при попытке сделать этот огромный аудиомассив чуть меньше меня добивает вторая мнительность.
Казалось бы, разрешение 24 бит и выше подразумевает выборку далеко за пределами человеческого слуха. Шутка ли, 24 х 6: нет такой ни техники, ни фонограмм, чтобы они плясали в диапазоне 144 дБ. Для того 24 бит и затевались в студиях — вынести любые ошибки наложения при редактуре куда подальше. Но стоит подвергнуть такой файл децимации, даже просто ресемплингу из 192 в 96 кГц, и что-то неуловимо меняется. Чуть другие уровни, чуть более плоский и тупой саунд, который мне не очень нравится в сравнении. Поэтому я выбираю оригинальные хайрезы не за абстрактную частотку, а лишь за отсутствие шрамов, которыми обрастает мастер-файл по пути вниз. Попытаемся оценить эти увечья.
Для экспериментов был выбран питомец лейбла 2L, который предлагает некоторые свои DXD-записи для свободного скачивания. Надо сказать, репертуар, как это бывает у аудиофильских контор, довольно тягостный и медлительный. Но, к счастью, там нашлась и выручила «Детская увертюра» Эжена Бозза. Эта фонограмма довольно энергично брякает, чтобы судить об изменении саунда при трансформации мастер-файла.
Изначально 5 с половиной минут DXD-оригинала «Детской увертюры» с характеристиками 24 бит / 352,8 кГц занимает целых 437 мегабайт. И это еще сжатое во FLAC, практически размер целого CD! На чем будем экономить?
На заре цифрового звука еще не существовало эффективных моделей борьбы с ошибками квантования. Да и вычислительным мощностям процессоров было многое не под силу. Шкворчание 8-битного саунда первых компьютерных игр стало стереотипом на долгие поколения вперед, но сейчас вы сами убедитесь, что 8 бит сегодня может играть вполне прилично. Чудодейственной панацеей стал так называемый дизеринг (dither), а если еще точнее — его разновидность, нойз-шейпинг (noise shaping).
В весьма толковой статье разработчика iZotope Алексея Лукина дается наглядный пример, как подмешивание горстки шума выручает картинку при снижении разрешения до 4 бит с 16-ю градациями яркости. Просто чудо, когда видишь, как ошибки квантования (так называемая постеризация изображения) практически сходят на нет. То же самое происходит и со звуком.
В отличие от общего случая дизеринга, нойз-шейпинг генерируется не во всей полосе полос, а лишь на высокочастотной области, что менее заметно на слух. Рассуждения о заметности схожи с помыслами разработчиков MP3-алгоритма, с той лишь разницей, что эти в частотный диапазон добавляют, а не режут. Нойз-шейпинг позволяет увеличить динамический диапазон фонограммы, от души его применяют в DSD кодировании и также видны следы его работы при записи «Детской увертюры».
Итак, с помощью ресемплера и фирменного нойз-шейпинга iZotope MBIT+ был сгенерирован целый ворох «Детских увертюр». Получилась стопочка FLAC-ов с разрядностью 8, 12, 16, 20 и 24 бит на кратной дискретизации 44,1 или 88,2 кГц. Также не обошлось без пары образцов МР3 битрейтом 320 кб/с. Один был опрокинут из файла 24 бит / 88,2 кГц, другой из 16 бит / 44,1 кГц, которые также представлены в этом списке. Архив можно скачать и самостоятельно решить, кому что нравится.
Понятное дело, четче и лучше всех отыграла самая полная версия 24/88, практически неотличимо от оригинала. Я надеялся, что понижение до 20 бит не скажется на качестве, но не тут-то было. Значит, начнем двигаться с другой стороны списка.
Сортировка в папке по размеру показала, что самым маленьким оказался образец 8 бит / 44,1 кГц. Менее 12 мегабайт после 400! Несмотря на слышимый шумок, звучит он весьма задорно и это не иллюзия — после всей математики уровень фонограммы немного подрос. Следующими по объему ожидаемо шли МР3. Не знаю как вам, но мне из всего набора проверять их было скучнее всего. И это при том, что в паузе у таких файлов было все чисто и аккуратно. Ну не мое, и все тут. Скомканный серый звук без огонька. Приятнее слушать пусть шумноватый, но лосслесс с низкой битностью, напоминает кассету. Вот на них и выруливаем дальше.
В полтора раза больше чем МР3 оказалась пара образцов на 12 бит / 44,1 кГц и 8 бит / 88,2 кГц. Размер — 19,7 и 23,5 Мб соответственно. По сравнению с базовым CD-разрешением (28,5 Мб) дополнительный шум заметен разве что в 8-битном треке, да и то в наушниках. Я не смог отдать однозначное предпочтение какой-то одной версии.
Субъективно файл более высокой битности играет быстрее, напористей, особенно это касается 24 бит / 44,1 кГц. Но и у 8- и 12-битного аудио на более высокой частоте дискретизации 88,2 кГц имеются несомненные плюсы. Более «гибкие» послезвучия, глубже строится сцена в отсутствие цифрового фильтра в слышимой области. Вы также можете сгруппировать треки по размерам и сравнить их самостоятельно.
По коэффициенту качество/размер я бы выделил следующую тройку, и вся она, увы, опирается на повышенную частоту дискретизации 88,2 кГц:
• 12 бит / 88,2 кГц (13-кратное уменьшение оригинала)
• 8 бит / 88,2 кГц (18,5-кратное уменьшение оригинала)
• 16 бит / 88,2 кГц (10-кратное уменьшение оригинала)
Подытоживая этот обзор, если можно было перезапустить всю цифровую индустрию заново, я бы предпочел использовать следующую градацию PCM-протоколов:
• Частота дискретизации 60 кГц в качестве индустриального стандарта
• Частота дискретизации 120 кГц для ответственных High-End задач
• Длина разряда в 10 бит для потокового аудио (10 бит / 60 кГц)
• Длина разряда в 14 бит для стандартной дистрибуции музыки (14 бит / 60 кГц)
• 22 бит для студийной работы и аудиофильских изданий музыки (22 бит / 60 кГц или 22 бит / 120 кГц)
Частота дискретизации и разрядность
При описании цифровых записывающих устройств используют два фундаментальных понятия: частота дискретизации и разрядность. В этой статье мы рассмотрим, что это такое.
Частота дискретизации
Частота дискретизации — это частота, с которой записывающим устройством фиксируются отсчеты входного сигнала. При записи звука в цифровом виде фактически записываются отдельные отсчеты или, иными словами, значения интенсивности звука в отдельные моменты времени.
Частота дискретизации для записывающих устройств имеет обычно следующие стандартные значения: 44,1 кГц; 48 кГц и 96 кГц. Чем большая величина частоты дискретизации, тем большее количество отсчетов делается за 1 секунду и тем лучше качество цифрового звука мы имеет в результате.
Каково значение этих чисел? Они подразумевают количество раз снятия за секунду записывающим устройством значения интенсивности звука входного сигнала. Для измерения частоты дискретизации используются килогерцы (кГц), 1 кГц = 1 000 отсчетам в секунду.
К примеру, если запись осуществляется с частотой дискретизации 48 кГц, то это означает, что значение интенсивности звука звукозаписывающее устройство измеряет и фиксирует 48 000 раз в секунду.
Такое количество может показаться невообразимо огромным, но здесь стоит вспомнить о явлении, называемом частотой Никвиста. Частота Никвиста названа так в честь человека, который первым ее обнаружил. Она определяет наивысшую частоту звука, которую возможно записать при данной частоте дискретизации.
Если говорить вкратце, то максимальное значение высоты звука, которое может быть подано в цифровом виде, равно примерно половине частоты дискретизации.
Поэтому, при проведении записи с частотой дискретизации 48 кГц максимальная частота звука, которая может быть записана, равна 24 кГц. Этого вполне достаточно, если учесть, что человеческое ухо слышит частоты в среднем от 20 Гц до 20 кГц.
Разрядность
В разговоре о цифровых записывающих устройствах часто можно услышать слова «16 бит», «24 бита» и т. д. Одни означают количество единиц информации, с помощью которых можно представить значение каждого отсчета, получаемого при цифровой записи.
Чем большая величина этого числа, тем точнее можно записать значение каждого отсчета и тем более высокое качество звука можно получить в итоге.
Не стоит думать, что чем больше количество бит, то есть чем выше величина разрядности, тем большее значение интенсивности можно зафиксировать. Здесь имеется в виду именно точность представления.
В современных записывающих устройствах обычно реализована разрядность 24 бита. Стоит учитывать, что запись с большой разрядностью занимает много места на устройстве хранения, но это не так уж важно, ибо современные носители отличаются огромными объемами и постоянно стают более и более доступными в финансовом плане.
На что влияет разрядность и частота дискретизации динамиков
Когда сигнал поступает на АЦП с предусилителя, компрессора, выхода пульта, синтезатора, — он представляет собой электромагнитные колебания. То есть на вход АЦП приходит некая волна с изменяющимся напряжением (очень маленьких величин). Для сохранения сигнала в файл его нужно «оцифровать», то есть закодировать с помощью единиц и нулей. В результате получается график волны на экране компьютера.
Даже самый лучший преобразователь имеет погрешность, ведь между нулем и единицей нет промежуточных значений, и график волны будет состоять только из вертикальных и горизонтальных отрезков, без наклонных линий. На графическую прорисовку волны будут влиять высота звука (частота колебаний), его тембр (форма волны) и громкость (амплитуда). Качественный АЦП должен корректно передать системе записи все эти параметры.
Итак, звук поступает в систему дискретно, то есть разделенным мелкие отрезки. От величины этих отрезков зависит точность кодирования аналогового сигнала в цифровой среде. Чем мельче горизонтальная и вертикальная дискретные единицы, тем точнее оцифровка.
Частота дискретизации
Горизонтальное дробление волны дает нам представление о частоте дискретизации, или частоте семплирования. Чем чаще АЦП фиксирует изменения значений графика волны, тем выше частота семплирования. Собственно, один семпл — это дискретный единичный отрезок, минимальная единица звука. Чем он короче, тем выше частота дискретизации.
К примеру, значение частоты дискретизации в 44.1 кГц показывает, что в одной секунде записи содержится 44100 семплов. Мы можем редактировать волну, принимая за минимальный элемент редактирования отрезок длительностью 1/44100 секунды. При увеличении частоты семплирования до 48 кГц этот отрезок уменьшается до 1/48000 доли секунды, давая возможность более точного воздействия.
Согласование частот дискретизации
АКАДЕМИЯ МЮЗИКМЕЙКЕРА
Книга А. Данилова о создании музыки
Каждый семпл по продолжительности равен предыдущему. Для корректного воспроизведения звука частоты дискретизации файла и системы должны быть идентичны. При добавлении в проект звуковой дорожки с частотой дискретизации, отличной от дискретизации хоста (программы), она должна быть сконвертирована.
Если воспроизводить файл более высокой частоты в системе с более низкой, он будет звучать медленнее, чем должен, и наоборот. Конвертирование сигнала из одной частоты в другую всегда приводит к появлению искажений. Чтобы «перекроить» звук под новую частоту дискретизации, система должна разбить семплы на более мелкие куски и снова собрать их в единую волну. Такой процесс может привести в лучшем случае просто к замыливанию звука, в худшем — к появлению щелчков.
Конечно, на встроенных колонках домашнего ноутбука разница будет незаметна. Но если речь идет о работе со звуком на профессиональном уровне, согласование частот дискретизации необходимо.
Не рекомендуется изменять частоту дискретизации в рамках одного проекта. Оправданием повышению дискретизации может быть, например, необходимость обработки файла алгоритмами или плагинами, лучше работающими на высоких частотах. Поскольку более высокая дискретность предполагает разбиение на более мелкие семплы, точность обработки будет выше, а качество в результате лучше. Но гарантировать эффективность этого метода тоже невозможно: в каждом случае результат будет индивидуальным. Необходимо каждый раз оценивать, что важнее — эффект от обработки на более высокой дискретности или негативное влияние конвертации.
Если по какой-то причине после завершения работы на частоте 48 кГц вам потребовалось конвертировать сигнал в 44.1 кГц, сохраните исходный файл на тот случай, если придется повторно вмешиваться в материал (например, для альтернативного мастеринга). Обработка на более высокой частоте дискретизации даст лучший эффект, чем на низкой.
Разрядность звука
Если горизонтальное дробление волны дает нам представление о частоте дискретизации, то вертикальная дискретизация – это разрядность, отвечающая за достоверную передачу динамических элементов записи. Чем большее количество «ступенек» может зафиксировать преобразователь, тем выше разрядность записанного звукового файла.
Например, волна за отрезок времени может совершить движение одной ступенькой от 0 до 16, а может четырьмя — по 4 единицы за шаг. Более точным представлением будет 16 шагов по единице. Количество ступенек, на которые волна дробится по вертикали, — это и есть разрядность.
Чем выше разрядность конвертора, тем достовернее он передаст сигналы разного уровня громкости. Если мы движемся большими шагами, каждый из которых равен 16 единицам (низкая разрядность), то при громкости входящей волны на уровне 4 график ее будет округлять до нуля. А если каждая ступенька разрядности равна 4 единицам (средняя разрядность), значение 4 будет зафиксировано на своем уровне, а значения 3 и 5 округлятся до 4. При единичном шаге все эти значения будут находиться на своих ступеньках — 3, 4, 5 (высокая разрядность).
Таким образом, более высокая разрядность АЦП дает возможность детальнее интерпретировать различные значения громкости звука и максимально приблизиться к форме реальной волны.
Разбиение волны на «ступеньки» по вертикали и горизонтали называется квантованием. Иногда частоту дискретизации называют частотой квантования, а разрядность динамическим квантованием, то есть разделением по уровням громкости (динамика).
Естественно, пример с 16 единицами — условность. Конверторы работают на гораздо более высоких значениях. Например, при разрядности 16 бит система может передать 65536 уровней громкости (2 в степени 16). А при 24 битах — 16777216 уровней (2 в степени 24).
Казалось бы, зачем столько? Неужели наше ухо способно различить хотя бы десять тысяч уровней громкости? Напрямую — не может. Скажем, два сигнала с «соседними» значениями даже при разрядности 16 бит мы различить не в состоянии. Но работа в студии ведется с разнообразными звуками, и некоторые из них имеют значительные перепады по громкости (к примеру, реверберация). Многие процессы требуют тонкой работы с громкостями (например, едва заметное воздействие эквалайзером на спектр). Для корректной работы нужна система с хорошей разрешающей способностью и по горизонтали, и по вертикали.
Но есть и обратная сторона медали. Высокие значения дискретизации и разрядности делают файлы более объемными, и для их обработки системе требуется больше ресурсов. Здесь самое время вспомнить про различия между ресурсонезависимыми и нативными системами. Чем выше квантование, тем сильнее загружается компьютер. Этот фактор более критичен для нативной системы, обремененной обслуживанием операционки и фоновых процессов.
Всегда нужно искать баланс между значениями дискретизации и разрядности и реальными возможностями системы. Не заставляйте ее работать на пределе, оставляйте резерв мощности.
Мы приближаемся к очень важной и мало кому понятной теме, связанной с музыкальным производством. Речь о так называемых шумах квантования. В ближайшее время этому явлению будет посвящен отдельный материал. Понимание природы шумов квантования дает возможность музыканту и звукорежиссеру разобраться в некоторых непростых вопросах, связанных с записью музыки в цифровой среде. Поскольку ввиду дороговизны и сложности в обслуживании аналогового оборудования подавляющее большинство музыкантов работает прежде всего именно в цифровых системах записи, эта тема так или иначе затрагивает всех.
Следите за обновлениями блога, подписывайтесь на новые статьи, чтобы совершенно бесплатно получать их на электронную почту. Также хочу напомнить, что очень много познавательной практической и теоретической информации содержится в моей книге «Академия Мюзикмейкера», которую без посредников можно приобрести на сайте MusicMaker.Pro.
Остались вопросы? Не стесняйтесь задавать их в комментариях под статьей или присоединяйтесь к обсуждениям в этой группе ВКонтакте, посвященной синтезаторам, музыкальному оборудованию и звукозаписи.
© Алексей Данилов Иллюстрации: А. Рублевский При перепечатывании ссылка на источник обязательна
Хотите получать новые статьи
прямо на почту?
Подпишитесь на обновления блога А. Данилова
Проверяем на практике бессмысленность высоких частот дискретизации
Много чего написано про ненужность частоты дискретизации 192000 Гц в звуковых файлах, предназначенных для прослушивания. Но аргументы обычно ссылаются на теоремы, для правильного понимания которых нужно довольно хорошо разбираться в математике. Но есть другой способ проверки некоторых утверждений — провести соответствующие эксперименты много раз.
Для начала необходимо сформулировать утверждение, которое будет проверяться в дальнейшем. Если частота 192000 Гц избыточна, то должна существовать более низкая частота дискретизации, при которой происходит корректное восстановление звукового сигнала. Предположим, что это частота 44100 Гц. Если при 192000 Гц происходит корректное восстановление, и при 44100 Гц происходит корректное восстановление, то в обоих случаях результат на выходе должен быть одинаковым. Чтобы проверить это на практике, нужно дорогое оборудование, которое есть далеко не у каждого. Поэтому пойдём немного другим путём. Если в файлах 44100 Гц и 192000 Гц содержится одинаковое количество информации о звуке, то это означает, что преобразование из 192000 Гц в 44100 Гц является сжатием без потерь, следовательно, должен существовать способ восстановления из файла 44100 Гц исходного файла 192000 Гц. Вот это уже может проверить каждый на любом современном компьютере.
В качестве исходника я выбрал музыкальный фрагмент с частотой дискретизации 192000 Гц. Если мне попался какой-то неправильный материал, в котором изначально не было чего-то важного, что должно потеряться при преобразовании из 192000 Гц в 44100 Гц, то любой желающий может проделать описанное в этой статье с любым другим файлом. Все действия будут производиться в свободном редакторе Audacity со стандартными эффектами. Все получаемые в процессе файлы будут сохраняться в формате FLAC с разрядностью 24 бит.
Исходный файл хранится в файле «A.FLAC» и выглядит вот так:
А вот так выглядит его спектр:
Нас интересует только звуковая информация, поэтому ультразвук удалим с помощью эквалайзера.
И получим такой спектр:
Экспортируем результат в файл «B.FLAC» — именно с ним мы будем сравнивать файл, который получится в конце всех преобразований.
Перед преобразованием частоты дискретизации убедимся, что в настройках выставлено максимальное качество:
Далее выбираем новую частоту дискретизации проекта и его экспортируем в файл «C.FLAC»
Затем открываем файл «C.FLAC», устанавливаем частоту дискретизации проекта 192000 Гц и экспортируем в файл «D.FLAC».
И остался самый главный этап: открыть файлы «B.FLAC», «D.FLAC» и сравнить их:
Разницы нет. Сравним получше — инвертируем одну из дорожек
И сведём всё в одну дорожку:
Тишина! Полная тишина!
А чтобы всё же увидеть разницу, надо увеличить амплитуду на 96 дБ!
Разница настолько тихая, что её невозможно услышать, а это значит, что при преобразовании из 192000 Гц в 44100 Гц в звуковом диапазоне информация не теряется. Вот так без глубоких познаний в математике с помощью доступного каждому программного обеспечения можно проверить достаточность частоты дискретизации 44100 Гц для хранения музыкальных файлов.