Что такое сжатие звука

Сжатие аудиоданных

Сжатие (компрессия) аудиоданных представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала.

Содержание

Сжатие без потерь

Сокращение статистической избыточности основано на учете свойств самих звуковых сигналов. Она определяется наличием корреляционной связи между соседними отсчетами цифрового звукового сигнала, устранение которой позволяет сокращать объем передаваемых данных на 15. 25% по сравнению с их исходной величиной. Для передачи сигнала необходимо получить более компактное его представление, что возможно осуществить с помощью ортогонального преобразования. Важными условиями применения такого метода преобразования являются:

Уменьшить скорость цифрового потока позволяют методы кодирования, учитывающие статистику звуковых сигналов, например, вероятности появления уровней разной величины. Одним из таких методов является код Хаффмана, где наиболее вероятным значениям сигнала приписываются более короткие кодовые слова, а значения отсчетов, вероятность появления которых мала, кодируются кодовыми словами большей длины. Именно в силу этих двух причин в наиболее эффективных алгоритмах компрессии цифровых аудиоданных кодированию подвергаются не сами отсчеты звукового сигнала, а коэффициенты МДКП.

Подобные методы применяются при архивации файлов.

Сжатие с потерями

Сжатие аудиоданных с потерями основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:

Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот. То есть, когда два сигнала одновременно находятся в ограниченной частотной области, то более слабый сигнал становится неслышимым на фоне более сильного.

Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно. При этом следует различать явления послемаскировки (изменение порога слышимости после сигнала высокого уровня) и предмаскировки (изменение порога слышимости перед приходом сигнала максимального уровня). Более слабый сигнал становится неслышимым за 5 − 20 мс до включения сигнала маскирования и становится слышимым через 50 − 200 мс после его включения.

Наилучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров который разделяет сигнал на частотные поддиапазоны. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее, в каждой полосе с помощью психоакустической модели, анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число бит. Для сокращения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования. Эта операция аналогична компандированию в аналоговом вещании. На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.

Структура кодера сжатия аудиоданных с потерями

Многие другие приёмы могут послужить способом сократить объём данных звуковой информации. Даже простое сужение полосы частот сигнала вместе с уменьшением динамического диапазона может уже называться сжатием аудиоданных. Например, в стандарте сжатия звука в сотовой связи используется и то и другое. Стремясь удалить избыточность из звука, кодек при плохом качестве сигнала становится избирателен к определённым словам, упорно проглатывая их.

Субъективная оценка качества

Для сжатых аудиоданных существует субъективная оценка качества, оцениваемая как процент людей, почувствовавших разницу с оригиналом.

Соответствие битрейта кодека MP3 в режиме стерео и процента людей заметивших разницу с оригиналом

Приблизительное количество людей, услышавших разницу между оригинальной и сжатой записями, %	Битрейт сжатой записи, кбит/сек
0…1	320
5…30	256
30…40	192
40…70	128

Следует учесть тот факт, что качество получившегося материала зависит от характера сжимаемых данных, от жанра, наличия фона, помех. После сжатия, например MP3, на средних битрейтах, слушатели отмечают оловянность перкуссионных. А на голосе сжатие (даже сильное) отражается мало.

Источник

Компрессия в работе со звуком

Для чего нужна компрессия?

Компрессоры и лимитеры — это специализированные усилители, используемые для уменьшения динамического диапазона — промежутка, между самым тихим и самым громким уровнем трека. Использование компрессии при записи и живом миксе может сделать звук качественнее путем контроля максимальных уровней и поддержания более высокой средней громкости. Кроме того, большинство компрессоров — как аппаратных, так и программных — имеют своё фирменное звучание, которое способно привнести замечательный окрас и тон в «безжизненный» трек. Компрессия так же используется, когда необходимо сделать звук более естественным и понятным без добавления искажений, в результате чего ваш трек будет слушаться максимально «комфортно». С другой стороны, чрезмерное сжатие может погасить ту искру, которая делала запись живой. Для тех, кто не знаком с компрессорами, знание основ позволит начать долгий путь к пониманию, как компрессия работает, и использованию её в свою пользу.

Общие элементы управления и параметры компрессора

Вне зависимости от того, какой компрессор вы используйте, и является ли он аппаратным или плагинным, существуют некоторые общие параметры и элементы управления, которые вы будете использовать, что бы настраивать его работу. Ниже приведен ряд из основных элементов компрессора.

Threshold

«Колено» отображает переходы между сжатым и несжатым аудиосигналом. Как правило компрессоры предлагают одну из, или в некоторых случаях возможность переключения между обоими, настроек: «soft knee» или «hard knee”. Некоторые компрессоры позволяют вам выбрать любое положение между двумя этими типами настроек. Как вы можете видеть на рисунке, „soft knee“ обеспечивает более плавное и постепенное сжатие, чем «hard knee».

Attack Time

Речь идет о времени, которое потребуется сигналу, чтобы стать полностью скомпрессированным после превышения порогового уровня. Более быстрая атака, как правило, от 20 мкс до 800 мкс зависит от типа и марки устройства, в то время как более медленная — в диапазоне от 10 мс до 100 мс. Некоторые компрессоры представляют это значение как дБ/сек. Быстрое время атаки может создавать искажения, изменяемые природе медленных низкочастотных сигналов (например, если цикл на 100 Гц длится 10 мс, то у атаки в 1 мс будет время, что бы изменить форму волны, что и будет формировать искажения.

Release Time

Это значение буквально противоположно времени атаки. В частности, это время, которое требуется сигналу, что бы перейти обратно в исходное состояние. Release Time будет значительно больше, чем время атаки, и в целом составляет от 40-60 мс до 2-5 секунд, в зависимости от того, с каким прибором вы работаете. Это значение также может быть представлено в виде дБ в секунду. Нормальная работа компрессора будет заключаться в установке этого значения как можно меньшим, не создавая при этом эффект «раскачки», который вызывается цикличной активацией и деактивацией компрессии. Например, если «release time» выставлено слишком маленьким и компрессор циклирует между активным и неактивным состоянием, ваш основной сигнал — как правило, бас-гитара или бочка — будут модулировать шум, в результате чего появится эффект «дыхания».

Compression Ratio

Этот параметр часто остается неправильно понятым, но он просто показывает величину ослабления, которая применяется к сигналу. Вам будет предложен широкий диапазон доступных коэффициентов сжатия в зависимости от типа и производителя компрессора, который вы используете. «Compression Ratio» 1:1 представляет собой коэффициент «единичного усиления», или, иными словами, без ослабления. Эти значения выражаются в децибелах, так что соотношение 2:1 указывает на то, что сигнал, превышающий порог на 2 дБ, будет ослаблен до 1 дБ выше порогового значения, или сигнал, превышающий порог на 8 дБ, будет ослаблен до 4 дБ после порога, и т.д. Соотношение около 3:1 можно считать умеренным сжатием, 5:1 будет средним уровнем сжатия, 8:1 начинает ряд значений сильного сжатия, а значения от 20:1 и до ∞:1 считаются ограничивающими и могут быть использованы для обеспечения сигнала, не превышающего пороговый. На диаграмме ниже показаны коэффициенты сжатия, как они относятся к входным и выходным сигналам и как ваши настройки сжатия повлияют на общий сигнал.

Output Gain

Часто компрессоры воспринимаются как приборы, делающие сигнал громче. В действительности же все компрессивно-индуцированные ослабления уменьшают сигнал на выходе. Вот тут «output gain» и вступает в игру. Вы можете использовать выходной усилитель для нейтрализации ослабления сигнала после компрессии. Некоторые компрессоры обладают индикаторами “gain reduction”, что позволяет более точно применить выходное усиление.

Большая четверка: Распространенные типы компрессии

Тип компрессора, который вы выберите, так же сыграет большую роль в общем звучании эффекта. Некоторые из них будут иметь более быстрые значения “attack”/“release”, а некоторые придадут звуку интересный окрас и винтажную атмосферу. Это список из четырех наиболее известных типов компрессии и краткое описание того, чем они отличаются.

Ламповая компрессия

Вероятно, самый старый тип компрессии. Как правило, имеет более медленную реакцию, чем другие типы компрессии. Благодаря этому, лампа привносит различные окраски и «винтажный» звук, которые почти невозможно достичь с другими компрессиями. (Пример: Fairchild 670)

Оптическая компрессия

Оптическая компрессия влияет на динамику звукового сигнала с помощью световых и оптических элементов. С ростом амплитуды сигнала световые элементы испускают больше света, что приводит к «оптическим ловушкам», ослабляющим выходной сигнал. (Пример: LA-2A Classic Leveling Amplifier)

Компрессор на основе полевого транзистора эмулирует ламповое звучание с помощью транзисторной схемы. Они быстрые, чистые и надежные. (Пример: 1176LN Classic Limiting Amplifier)

VCA-компрессия

Компрессоры на основе усилителя, управляемого напряжением, используют твердотельные элементы или интегральные схемы. Они, как правило, дешевле, чем ламповые или оптические компрессоры. Они так же меньше окрашивают звук по сравнению с другими. (Пример: dbx® 160 Compressor / Limiter)

Советы и рекомендации

Вот несколько советов для работы с компрессорами. Это, конечно же, не правила, но мы надеемся, что они помогут вам при работе с этими чрезвычайно мощными приборами. Получайте удовольствие от опыта и экспериментируйте!

Источник

Как работает сжатие аудио

Сегодня количество потребляемой нами информации в сети выросло в тысячи раз в сравнении с началом 2000-х. И неудивительно, ведь раньше, помимо намного менее распространенного интернет-покрытия, привычные нам сайты и сервисы выглядели совсем по другому.

Мы ежедневно читаем статьи и новости о том, что та или иная компания разработала новый стандарт соединения, превосходящий нынешние аналоги по скорости передачи данных. За уже практически два десятилетия провайдеры и производители многих гаджетов сделали огромный шаг в направлении к скоростному доступу в Интернет. Но не одними лишь скоростями наш мгновенный доступ к сайтам един.

Огромную роль в экономии нашего времени сыграло развитие алгоритмов сжатия изображений, аудио и видеофайлов. Гуляя по просторам сети, зачастую мы даже не задумываемся над тем, как и что устроено, сколько сил было приложено к разработке той или иной технологии. В новой серии статей мы рассмотрим методы сжатия таких популярных форматов, как MP3 и JPEG, а также базово рассмотрим процесс кодирования видео.

Работа алгоритма

Первым в новой серии статей станет самый популярный формат сжатия аудио–файлов *.mp3. Появился он в 1993 году, благодаря рабочей группе института Фраунгофера, а стандартизирован объединением MPEG. По данным Википедии, объединение было образовано международной организацией ISO для разработки норм в сжатии аудио и видеофайлов. Ими были установлены также следующие стандарты:

Все таки давайте вернемся обратно к mp3. Основной задачей формата было и является уменьшение размера файлов за счет удаления определенных участков звукового спектра, которые не ощущаются на непрофессиональной аудиотехнике, в соответствии с психоакустической моделью звуковосприятия человека.

На этом этапе при помощи алгоритма преобразования Фурье, звуковая волна раскладывается на спектры разной частоты. Все те малоразличимые нашим слухом частоты просто удаляются. В основном это весь спектр звука выше 16 000 Гц. По такому принципу, кстати, работают и сервисы определения музыки, типа SoundHound и Shazam. Встроенный в их работу алгоритм разделяет слышимую звуковую волну на несколько, выделяет ритмику, основные ноты и сравнивает их со своей базой данных.

Но тем не менее, общая картина звучания, например, mp3-файла в битрейте 320 кбит/с мало чем отличается от несжатого файла, при этом в размере может составлять 1/10 от оригинального.

Уже на этом этапе размер файла можно значительно уменьшить, но самый больший процент сжатия происходит на следующих этапах маскировки. Работа первого из них заключается в удалении кратных звуковых частот на громких моментах в песне, то есть если звучит громкий барабан, то все остальные сигналы исходящие от включенных в аранжировку инструментов, можно просто–напросто убрать, и никто этого не заметит.

А в некоторых случаях, в соответствии с той же психоакустической моделью, можно удалять доли перед, и после звучания громких звуков, так как в этот период у всех людей наступает кратковременная (буквально на несколько сотых секунды) глухота.

Потом идет распределение звуков по каналам. Это происходит не без потерь в детализации, с помощью специальных формул, которые вы можете посмотреть на картинке (упрощено). Разница в звучании каждого из каналов сводится почти к нулю с целью сэкономить еще одну сотню-другую байт.

В конце каждый из сжатых фреймов аудиозаписи закодированные одинаковыми символами (например нулями), сокращаются до минимальных размеров при помощи метода кода Хаффмана. В процессе его работы дополнительная информация не теряется, просто к каждому из значений фреймов присваивается какой-то код, в зависимости от того, сколько раз то или иное число в нем встречается. Далее все оставшиеся куски нашей аудиозаписи склеиваются и на выходе образуют привычный нам аудио–файл.

Спасибо, что дочитали до конца теперь мы разобрались с тем, как устроен один из самых распространенных аудиоформатов. B следующей статье мы рассмотрим процесс сжатия видео.

Источник

Компрессия звука: принцип и настройка

Зачем используется компрессия и как правильно настраивать компрессор

Компрессия это одна из наиболее опутанных мифами тем саундпродакшна. Говорят, Бетховен даже пугал ей соседских детей:(

Ладно, на самом деле, применять компрессию не сложнее чем пользоваться дисторшном, главное — понимать принцип её работы и иметь хороший контроль. В чём мы сейчас вместе и убедимся.

Что такое компрессия звука

Первое, что стоит уяснить перед препарированием — компрессия это работа с динамическим диапазоном звука. А динамический диапазон, в свою очередь, — ни что иное как разница между самым громким и самым тихим уровнем сигнала:

Так вот, компрессия это сжатие динамического диапазона. Да, просто сжатие динамического диапазона, ну или другими словами понижение уровня громких частей сигнала и увеличение громкости тихих. Не более того.

Ты можешь вполне резонно удивиться с чем тогда связан такой хайп? Почему все говорят о рецептах правильной настройки компрессоров, но никто ими не делится? Почему, не смотря на огромное количество классных плагинов, во многих студиях до сих пор используются дорогущие раритетные модели компрессоров? Почему одни продюсеры применяют компрессоры на экстремальных настройках, а другие не используют совсем? И кто из них в конце концов прав?

Задачи, которые решает компрессия

Ответы на подобные вопросы лежат в плоскости понимания роли компрессии в работе со звуком. А она позволяет:

Как видишь, это не менее значимый творческий процесс чем, скажем, придумывание мелодий или наруливание интересных тембров. При этом любая из вышеперечисленных задач может быть решена с помощью 4-х основных параметров.

Основные параметры компрессора

Не смотря на огромное количество программных и аппаратных моделей компрессоров, вся «магия» компрессии происходит при правильной настройке основных параметров: Threshold, Ratio, Attack и Release. Рассмотрим их подробнее:

Threshold или порог срабатывания, dB

Ratio или коэффициент сжатия

Attack, ms

Это время, спустя которое компрессор будет реагировать на превышение порога срабатывания. То есть, если время атаки выше 0ms — компрессор начинает сжатие превышающего threshold сигнала не мгновенно, а спустя указанное время.

Release или восстановление, ms

Противоположность атаке — значение данного параметра позволяет указать спустя какое время с момента возврата уровня сигнала ниже threshold компрессор прекратит сжатие.

Все остальные параметры опциональны. Они могут отличаться в разных моделях компрессоров, отчасти поэтому продюсеры и применяют различные модели для каких-либо определённых целей (например, один компрессор для вокала, другой на группу ударных, третий — на мастер-канале). Я не стану подробно останавливаться на этих параметрах, а лишь дам общую информацию для понимания что это вообще такое:

Советы по использованию компрессоров

Первый и самый главный совет, снимающий все дальнейшие вопросы по компрессии: если ты а) понял принцип действия компрессии, б) твёрдо знаешь как воздействует на звук тот или иной параметр и в) успел на практике попробовать несколько разных моделей — никакие советы тебе уже не нужны.

Я абсолютно серьёзен. Если ты внимательно прочёл эту запись, поэкспериментировал со штатным компрессором твоей DAW и одним-двумя плагинами, но так и не понял в каких случаях нужно устанавливать большие значения атаки, какой коэффициент ratio применять и в каком из режимов обрабатывать исходный сигнал — то так и будешь дальше искать в интернете готовые рецепты, применяя их бездумно куда попало.

Рецепты точной настройки компрессора это примерно как рецепты точной настройки ревербератора или хоруса — лишено какого-либо смысла и не имеет ничего общего с творчеством. Поэтому настойчиво повторяю единственно верный рецепт: вооружись этой статьёй, хорошими мониторными наушниками, плагином для визуального контроля формы волны и проведи вечер в компании с парочкой компрессоров.

Источник

Просто о звуке: Обсуждаем сжатие динамического диапазона

Совсем недавно мы обсуждали старый новый звук высокого разрешения. Эту тему изначально поднял Стив Гуттенберг. Иногда мы отталкиваемся от оценок Стива в попытке найти свои решения и ответы на вопросы.

Сегодня мы решили привести основные моменты из очередного материала эксперта.

Стив говорит об альбоме Стивена Уилсона от MA Recordings и Reference Recordings. Он приводит его в качестве примера того, насколько хорошим может быть цифровой звук. Но это редкость в эпоху борьбы за громкость и сжатие.

Суть сжатия динамического диапазона в том, что оно уменьшает естественное соотношение между самым громким и самым тихим звуком на записи. Конечно, сильно сжатая музыка – это не новое веяние. Стив приводит в качестве примера альбомы Motown 60-х годов, Led Zeppelin и альбомы Wilco и Radiohead.

«Сжатие применяется на всех этапах создания музыки, поэтому часть динамического диапазона может быть давно утеряна к тому моменту, когда мастеринг-инженер выполняет последний прогон.

Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия.

С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей»

На ГТ достаточно активно обсуждают тему компрессии. В одном из материалов были разобраны основные типы сжатия и рекомендации по работе с этим инструментом.

Стив замечает, что сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Исходя из данного положения дел, достаточно сложно сказать, как звучали инструменты и вокальная партия в самом начале процесса.

С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков. Аналогичная ситуация и с инструментами но, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы.

Парочка интересных обсуждений на основе наших материалов:

Источник