На что влияет частота дискретизации при записи звука
Статьи
Аудио-кодирование: секреты раскрыты
Настройка аудио для видеозахвата и трансляции.
Как люди, непосредственно связанные с AV сферой, мы постоянно говорим об аудио-кодировании и аудиокодеках, а что же это такое? Аудиокодек – это, по сути, устройство или алгоритм, способный кодировать и декодировать цифровой аудиосигнал.
На практике аудиоволны, которые передаются по воздуху, являются продолжительными аналоговыми сигналами. Сигналы преобразуются в цифровой формат устройством, которое называется аналого-цифровой преобразователь (АЦП), а устройство обратного преобразования – цифро-аналоговый преобразователь (ЦАП). Кодек находится между этими двумя функциями и именно он позволяет откорректировать некоторые важные параметры для успешного захвата, записи и трансляции звукового сигнала: алгоритм кодека, частота дискретизации, разрядность и скорость передачи данных.
Три наиболее популярных аудиокодека: Pulse-Code Modulation ( PCM), MP3 и Advanced Audio Coding ( AAC ). Выбор кодека определяет степень сжатия и качество записи. PCM – кодек, который используется компьютерами, CD-дисками, цифровыми телефонами и иногда SACD-дисками. Источник сигнала для PCM сэмплируется через равные интервалы, и каждый сэмпл представляет собой амплитуду аналогового сигнала в цифровом значении. PCM – это наиболее простой вариант для оцифровки аналогового сигнала.
При наличии правильных параметров этот оцифрованный сигнал может быть полностью реконструирован обратно в аналоговый без каких-либо потерь. Но этот кодек, обеспечивающий практически полную идентичность оригинальному аудио, к сожалению, не очень экономичен, что выражается в очень больших объемах файлов, а такие файлы не подходят для потокового вещания. Мы рекомендуем использовать PCM для записи цифровых образов для ваших источников или когда вы занимаетесь постобработкой аудио.
К счастью, у нас всегда есть возможность выбрать другой кодек, который может сжимать цифровые данные (по сравнению с PCM) на основании некоторых полезных наблюдений о поведении звуковых волн. Но в этом случае приходится идти на компромисс: все альтернативные алгоритмы сопряжены с «потерями», так как невозможно полностью восстановить исходный сигнал, но, тем не менее, результат всё равно хорош настолько, что большинство пользователей не смогут уловить разницу.
MP3 – это формат аудио-кодирования с использованием как раз такого алгоритма сжатия цифровых данных, который позволяет сохранять аудиосигнал в меньшие по объему файлы. Кодек MP3 чаще всего используется пользователями для записи и хранения музыкальных файлов. Мы рекомендуем применять MP3 для трансляций аудио-контента, так как ему требуется меньшая пропускная способность сети.
AAC – это более новый алгоритм кодирования аудиосигнала, ставший «преемником» MP3. AAC стал стандартом для форматов MPEG-2 и MPEG-4. По сути это тоже кодек сжатия цифровых данных, но с меньшей, чем у MP3, потерей качества при кодировании с одинаковыми битрейтами. Мы рекомендуем использовать этот кодек для онлайн трансляций.
Частота дискретизации (кГц, kHz)
Измеряется в герцах (Гц, Hz) или килогерцах (кГц, kHz,) 1 кГц равен 1000 Гц. Например, 44 100 сэмплов в секунду можно обозначить как 44 100 Гц или 44,1 кГц. Выбранная частота дискретизации будет определять максимальную частоту воспроизведения, и, как следует из теоремы Котельникова, для того, чтобы полностью восстановить исходный сигнал, частота дискретизации должна в два раза превышать наибольшую частоту в спектре сигнала.
Как известно, человеческое ухо способно улавливать частоты между 20 Гц и 20 кГц. Учитывая эти параметры и значения, показанные в таблице ниже, можно понять, почему именно частота 44,1 кГц была выбрана в качестве частоты дискретизации для CD и до сих пор считается очень хорошей частотой для записи.
Есть ряд причин для выбора более высокой частоты дискретизации, хотя может показаться, что воспроизводить звук вне диапазона человеческого слуха – пустая трата сил и времени. При этом среднестатистическому слушателю будет вполне достаточно 44,1 – 48 кГц для качественного решения большинства задач.
Разрядность
Наряду с частотой дискретизации есть такое понятие как разрядность или глубина звука. Разрядность – это количество бит цифровой информации для кодирования каждого сэмпла. Проще говоря, разрядность определяет «точность» измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. С минимальной возможной разрядностью есть только два варианта измерения точности звука: 0 для полной тишины и 1 для звучания в полном объеме. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 2 8 = 256 (2 16 = 65 536) различных значений.
Разрядность закреплена в кодеке PCM, но для кодеков, которые предполагают сжатие (например, MP3 и AAC) этот параметр рассчитывается при кодировании и может меняться от сэмпла к сэмплу.
Битрейт
битрейт = частота дискретизации × разрядность × каналы
Для таких систем как Epiphan Pearl Mini, которые кодируют линейный PCM 16-бит (разрядность 16), этот расчет может быть использован для определения, сколько дополнительных полос пропускания может потребоваться для PCM аудио. Например, для стерео (два канала) оцифровка сигнала производится с частотой 44,1 кГц на 16-бит, а битрейт при этом рассчитывается таким образом:
44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с
Между тем алгоритмы сжатия аудиосигнала, такие как AAC и MP3, имеют меньшее количество бит для передачи сигнала (в этом и заключается их цель), поэтому они используют небольшие битрейты. Обычно значения находятся в диапазоне от 96 кбит/с до 320 кбит/с. Для этих кодеков чем выше битрейт вы выбираете, тем больше аудио бит вы получаете на сэмпл, и тем выше будет качество звучания.
Частота дискретизации, разрядность и битрейты в реальной жизни.
Аудио CD-диски, одни из первых наиболее популярных изобретений для простых пользователей для хранения цифрового аудио, использовали частоту 44,1 кГц (20 Гц – 20 кГц, диапазон человеческого уха) и разрядность 16-бит. Данные значения были выбраны, чтобы при хорошем качестве звука иметь возможность сохранять как можно больше аудио на диске.
Когда к аудио добавилось видео и появились DVD, а позднее Blu-Ray диски, был создан новый стандарт. Записи для DVD и Blu-Rays обычно используют линейный формат PCM с частотой 48 кГц (стерео) или 96 кГц (звук 5.1 Surround) и разрядность 24. Эти значения были выбраны в качестве идеального варианта, чтобы сохранять аудио с синхронизацией с видео и при этом получать максимально возможное качество с использованием дополнительного доступного дискового пространства.
Наши рекомендации
CD, DVD и Blu-Ray диски преследовали одну цель – дать потребителю высококачественный механизм воспроизведения. Задачей всех разработок было предоставить высокое качество аудио и видео, не заботясь о величине файла (лишь бы он умещался на диск). Такое качество мог обеспечить линейный PCM.
Напротив, у мобильных средств информации и потокового медиа совсем другая цель – использовать максимально низкий битрейт, при этом достаточный для поддержания приемлемого для слушателя качества. Для этой задачи лучше всего подходят алгоритмы сжатия. Теми же принципами вы можете руководствоваться для своих записей.
При записи аудио с видео…
При потоковой передаче аудио с видео…
При потоковой передаче или записи для последующей трансляции можно получить хорошее звучание аудио при меньшей полосе пропускания, используя кодеки AAC или MP3 с частотой 44,1 кГц и битрейт 128 кбит/с или выше. Такие параметры гарантируют, что звук будет достаточно хорош и не скажется на качестве трансляции.
Так ли хорош цифровой звук — частота дискретизации и теорема Котельникова
Часто производители аудио аппаратуры, особенно наушников, в процессе пиара своей продукции активно продвигают “кристальную чистоту” звука и широчайший частотный диапазон, который не только за 20 кГц переваливает, но и в некоторых случаях доходит даже до 100 кГц. Конечно это имеет свои плюсы, даже не смотря на то, что выше 20к Гц мы не слышим, а то и еще меньше. Но есть определенные проблемы, которые связанны с понятием частота дискретизации и вытекающие из теоремы Котельникова. Они в одночасье поставили жирный крест на применении слова “качественно” для большинства аудио-форматов и аудио устройств в моих глазах.
Любой процесс в природе является непрерывным. Например звуковой сигнал принятый микрофоном и преобразованный в электрический (аналоговый) сигнал — непрерывен.
Термин “Аналоговый сигнал” подчеркивает, что такой сигнал “аналогичен”, т.е. полностью подобен порождающему его процессу, или в данном случае звуку.
И непрерывный он не потому что будет длиться вечно, а потому, что его значение можно измерять в любые моменты времени. А между этими моментами сигнал будет продолжать непрерывно меняться.
Для лучшего понимания того, как устроен цифровой звук, советую посмотреть мой видос:
Что такое частота дискретизации?
Как только встает вопрос о переводе аналогового сигнала в цифровой, сразу возникает понятие дискретизации, т.е. разбиение непрерывного сигнала на кусочки по времени. Делается это непосредственно в процессе преобразования.
Через равные промежутки времени, называемые шагом дискретизации Δ, Аналогово-Цифровой-Преобразователь (АЦП) измеряет значение сигнала, поступающего на его вход и преобразует это значение в цифровой вид. То, как часто осуществляется измерение величины аналогово сигнала и называется частотой дискретизации.
Какая частота дискретизации считается достаточной?
Товарищ Котельников, еще в 1933 в работе «О пропускной способности эфира и проволоки в электросвязи» создал фундаментальную, для цифровой техники теорию, которая обычно формулируется следующим образом:
Лю бой непрерывный сигнал u(t) с конечным спектром (имеющим максимальное значение частоты F ) можно представить в виде дискретных отсчетов u(kΔt) , частота дискретизации которых должна быть выбрана не менее чем в два раза выше максимального значения спектра сигнала: f ≥ 2F , передать его по линии связи, а затем восстановить исходный аналоговый сигнал .
Говоря проще, для того чтобы можно было правильно воспроизвести (восстановить) аналоговый сигнал из цифрового вида, достаточно, чтобы частота дискретизации была вдвое выше максимальной частоты в сигнале.
Верхний порог слышимости человека принято ограничивать частотой в 20кГц. Из теоремы Котельникова следует, что для правильного воспроизведения сигнала частотой 20 кГц достаточно частоты дискретизации в 40кГц. Если заглянуть в свойства подавляющего большинства аудио файлов, то можно увидеть строчку:
Почему именно 44.1 кГц? Википедия отвечает так: “Эта цифра выбрана компанией Sony из соображений совместимости со стандартом телевещания PAL, за счёт записи 3 значений на линию картинки кадра x588 линий на кадр x25 кадров в секунду, и достаточности (по теореме Котельникова) для качественного покрытия всего диапазона частот, различаемых человеком на слух (20 Гц — 20 кГц).”
Вроде все нормально, так чего же тут не так?
Начнем с частот, кратных частоте дискретизации. На частоте 441 Герц при нашей частоте дискретизации (44.1 кГц), на один период приходится 100 точек. Чтож, тут нет никаких претензий, синусоида идеальная. Если же повысить частоту на порядок, т.е. в 10 раз, то эти же 100 точек будут формировать уже не 1, а 10 периодов. И даже в этом случае Будет формироваться сигнал очень похожий на синусоиду.
А вот на частоте 22050, т.е. наивысшей частоте, удовлетворяющей теореме Котельникова (при частоте дискретизации 44.1кГц) на 100 точек приходится 50 периодов колебаний.
Эти сигналы генерировались в программе Audacity. И по началу создалось впечатление, что точек там достаточно, просто масштаб не позволяет разглядеть и поэтому так все угловато…
Чтож… приблизим и рассмотрим каждый период по отдельности:
Частота в 4410 Гц вполне себе достойная синусоида, чего никак не скажешь о частоте 22050Гц, с ее двумя точками на период. По факту это уже и не синусоида, а сигнал треугольной формы.
Конечно в любом реальном ЦАПе на выходе применяется НЧ-фильт, который срезает высокочастотную составляющую и скругляет этот треугольник. Однако чем выше класс вашего аудио устройства, тем заметнее будет угловатость звука
Ради эксперимента можете попробовать сгенерировать в Audcity сигналы одной и той же частоты но разных форм. У треугольной и прямоугольной форм из-за их “угловатости” и резких фронтов возникают дополнительные гармоники, а вот синусоидальный сигнал звучит гораздо более мягко и естественно.
Но даже и это не самое страшное. До этого момента рассматривались сигналы с частотами кратными частоте дискретизации.
— А что же будет, если взять другие частоты.
Знакомьтесь, цифровая синусоида равной амплитуды и частотой 15 кГц. Красивый узорчик, не правда ли? Как видите амплитуда меняется с частотой. Это уже интермодуляционные искажения. Наш истинный сигнал в 15 кГц промодулирован частотой кратной 44.1 кГц.
Вы можете возразить, мол узорчик то красивый, но может звучит он как ему и положено. Для того чтобы убедиться в этом своими ушами — сгенерируйте сигнал частота которого меняется от 20 герц до 20 кГц. И вы отчетливо услышите, что с какого-то момента частота перестанет равномерно расти, а начнет плавать туда-сюда.
Оно и понятно, вот так выглядят синусоиды на разных частотах выше 10’000Гц
В защиту теоремы Котельникова стоит отметить, что да, его теорема верна, иначе бы мы не смогли различать в музыке высокие звуки, и что тарелка что маракас звучали бы одинаково неправдоподобно, но она абсолютно не гарантирует высокого качества записи.
В жизни Вы врядли станете наслаждаться звучанием синусоиды, но это был очень наглядный пример проблем качества цифровых аудио записей.
Частота дискретизации и Hi-Res звук
Конечно сегодняшние технологии уже побороли данную проблему. Вероятно вам встречалось сокращение Hi-Res (High Resolution — высокое разрешение), которым обычно обзывают качество звука в 24 бита и частотой дискретизации в 192 кГц.
А это уже 10 точек на частоте 22’050 кГц, такую синусоиду уже явно можно считать идеальной. И вот там «кристально чистые верха» ваших наушников себя точно оправдают.
Возникает только 3 проблемы:
В заключение
Конечно от плохого звучания высоких частот еще никто не умирал и, возможно я излишне драматизирую, говоря, что частота дискретизации в 44.1 кГц так уж плоха, однако, как видите особым качеством на высоких частотах она не блещет.
На мой взгляд в домашних условиях гораздо интереснее слушать винил. Но с виниловой вертушкой в метро не поездишь… Так что меломанские запросы придется удовлетворять цифровым плеером.
Всем качественного звука!
(P.S. — комментируем, не стесняемся 🙂
Мдя, против логики не попрёшь: на 20000 Гц при дискретизации 40000 будет тупо треугольный сигнал…
Так просто о звуковых сложностях не доводилось читать, спасибо!
Рад, что вам понравилось. Значит не просто так все это) Я сам не сильно задумывался о частоте дискретизации, обычно больше на битность обращал внимание, а когда случайно обнаружил что синус совсем не синус, понял какая это оказывается какашка(((
Спасибо,немножко взгруснулось что надо покупать дорогую аппаратуру))
Спасибо за доступное объяснение!
спасибо за тему, на дискретность не обращал внимания к звуку, всегда выбирал по битности, так досконально в картинках в наше время не видел, лет 20 назад попадались такие темы, но как то не принимал всерьез, для выбора осциллографа было нормой, а со звуком не связывал, уважуха!
Спасибо за комментарий!
Интерес к этому вопросу возник после того, как решил посмотреть осцилографом на выходной сигнал плеера на высоких частотах…
Сгенерировал трек, у которого частота плавно менялась от 10 до 20кГц в течении минуты, подал сигнал с выхода плеера на осцилографф, и наблюдал, как там все красиво плавает…
Добрый вечер Андрей.
Случайно наткнулся на вашу статью, давно интересовался данным вопросом, могу пояснить некоторые ваши интересные наблюдения:
1) Мало кто про это знает и понимает, но для восстановления сигнала в теореме Котельникова необходимо указывать строгое неравенство, по обозначениям в Вашей статье должны быть f > 2F. Поэтому при частоте дискретизации 44.1кГц вы синусойду с частотой 22,05 Гц корректно не восстановите.
2) При дискретизации частотой некратной, никаких интермодуляционных искажений не будет. В соответствии с теоремой Котельникова сигнал восстановится теоретически точно, без погрешности. Однако это будет только в том случае, если мы будем использовать фильтры с идеальными характеристиками. Поскольку все реальные фильтры имеют АЧХ неидеальную, сигнал восстанавливается с искажениями. Чем больше будет браться частота дискретизации, тем меньше будет этих искажений. Поэтому при частоте дискретизации в 192 кГц качество звука для сигналов с высокими частотами на порядок выше.
Здравствуйте, Дмитрий!
Спасибо за Ваш развернутый комментарий.
1. Да, я согласен, что там должно стоять строгое неравенство и начиная с частоты в 22,05 кГц — это условие и не выполняется.
На той же википедии при этом приводится такая выдержка из работы Котельникова:
Любую функцию f(t), состоящую из частот от 0 до fc, можно непрерывно передавать с любой точностью при помощи чисел, следующих друг за другом через 1/2fc секунд
Т.е. частоту fc можно передавать с любой точностью при частоте дискретизации вдвое больше самой fc.
Так или иначе те же 20 кГц тоже очень далеки от правдоподобности.
2. И тут я с Вами согласен!) В идеале на выходе цифро аналогового преобразователя должны стоят фильтры 6-8 порядка, которые не только трудно реализуемы но еще и вносят существенный вклад в искажение как частотной так и фазовой характеристики. Поэтому в качестве альтернативы обычно обходятся фильтром 2-го порядка. А он все-таки не может полноценно срезать все лишнее.
По крайней мере, глядя осциллографом на выходе моего HiFiMan HM-601 я наблюдал немного сглаженные, но в целом такие же картинки, как и приводятся в статье.
Однако сегодня существуют не только аналоговые, но и цифровые фильтры, способные обеспечить очень крутой срез всех частот выше слышимых. Однако это уже несколько сложнее и дороже.
__________
Почему же не будет интермодуляционных искажений? Если посмотреть на картинки частот не кратных частоте дискретизации, то отчетливо видно что точки идут волнами. А частота этих волн и есть частота дискретизации. Соответственно полезный сигнал промодулирован частотой дискретизации.
Я вам даже больше скажу, если сгенерировать сигнал плавно меняющийся от 20 Гц до 20кГц, то это становится даже слышно, примерное после 10кГц частота, по ощущениям, начинает плавать туда сюда вместо плавного роста.
Добрый вечер, вы также не учли то что звуковой сигнал при оцифровке не будет синхронный с дискретизацией, например при рассинхроне в пол периода частоты дискретизации вместо треугольников у вас получится ровная линия.
Кому-то Бог дал уши, а кому-то — теорему Котельникова.
С Вашего позволения расскажу давнишнюю историю. Сейчас кажется, что это было сто лет назад, но на самом деле немного меньше. Был пик расцвета аналогового аудио. Я случайно в неурочное время оказался возле одного стенда на выставке достижений народного хозяйства. Японского народа… Сама выставка еще не открылась, а только монтировались стенды. Был конец дня. На стенде была представлена акустическая система с усилителем. Верхняя частота передачи колонок — 70кГц, усилителя — 100кГц. Через эту систему играла музыка от стоящего в углу катушечного магнитофона. Рядом сидел пожилой японец, слушал музыку и пил, что-то, принесенное в термосе. Звук был, надо отдать должное, впечатляющий. Такая вот обстановка. Ну и я тут, весь такой умный, все знающий — второй Котельников. Спрашиваю — а чтой-то за неувязочка у Вас тут, гражданин уважаемый — усилитель до 100кГц, колонки — до 70-ти, а слышим мы и подавно до 20-ти? Японец оказался не просто представителем производителя, а инженером-разработчиком. Он подозвал переводчика, тот ему перевел мой вопрос и, как это не поразительно, японец мне ответил. Первая часть ответа состояла из того, что интерференция колебаний вызывает образование суммарных и разностных частот. Если сделать тракт с полосой пропускания в пределах слышимости, например, до 20 кГц, то мы потеряем частоту 5кГц, если на вход будет подано 2 частоты — 20кГц и 25кГц. В этот момент переводчика у нас отняли, но японцу, почему-то, захотелось, что бы я понял его концепцию. Уже на плохом английском, жестикулируя и рисуя в блокноте, он говорил про передачу фазовой информации в звуке, о влиянии фазовых искажений на звуковую картину, про альтернативное видение окружающего пространства при помощи слуха…
Теорема Котельникова должна применяться после понимания того, какую информацию из колебаний мы хотим восстановить. И если у Вас есть уши — им необходим объем звуковой информации бОльший на порядок. Звуковая сцена, окружающее пространство — это фазовая информация, которая только начинает появляться при разрешении 18бит 96кГц. Удачи всем!
Спасибо за ваш полезный и глубокий комментарий!
Вы несомненно правы! Я както даже не задумывался с этой точки зрения. Так что еще раз спасибо!)
треугольный сигнал на 20 кГц, появляются гармоники которые портят звук… Оч интересно..а гармоники имеют частоту выше чем 20 кГц или ниже?….а? Каким ухом вы собираетесь их слышать?
Конечно же, на выходе любого ЦАПа стоит ФНЧ, который скругляет этот треугольник, приближая его к синусу.
Вот только для полноценного избавления от лишнего цифрового мусора, порождаемого ЦАПом, нужен ФНЧ с частотой среза 20кГц, обеспечивающий затухание сигнала в 30-40 дБ, к часте дискретизации в 44кГц. Построение подобного аналогово фильтра технически очень сложная и муторная задача, поэтому все чаще прибегают к цифровым фильтрам и псевдо учетверению частоты дескретизации.
А все это нужно, чтобы какраз таки убрать гармоники, лежащие на частотах, кратных частоте дескритизации 44к, 88к… Которые хоть и лежат за пределами слышимого диапазона, но оказывают влияние на него.
Наверное все это не просто так делается, мм?
«а гармоники имеют частоту выше чем 20 кГц или ниже?….а? Каким ухом вы собираетесь их слышать?» — Дмитрий, это называется «я не читатель, я- писатель». Простите.
Если речь идет о гармониках, связанных с АЦП, то они в Вашем примере займут весь спектр от 0 Гц до нескольких МГц, по причине их нечетности и способности складываться, вычитаться (в том числе и с исходным сигналом) и много еще чего делать в нелинейном тракте. Спектральное распределение шума Вы можете посмотреть, подключив анализатор. Неплохо от него избавляются специальными алгоритмами, вычитающими в несколько итераций спектр, который должен быть образован гармониками, из исходного сигнала. Недостаток метода — дороговизна и привязка к конкретному аппаратному тракту. Так же существуют менее точные, но более универсальные аппаратные аналоги этого решения (Burr-Brown, Tripath…), использующие введение обратной связи, но которые, тем не менее, являются общепризнанными стандартами высокого качества, прежде всего в передаче звука.