Станислав Фоминенко: Форматы звукозаписи и кодирования.
Большинство людей не просто любят или
коллекционируют музыку, они ценят музыку качественную, не только и не столько в
эстетическом плане, сколько по качеству записи самой фонограммы. Именно поэтому
формат записи имеет очень большое значение и определяет пути дальнейшего
развития музыкальной коммерческой индустрии. Вопрос сохранения и распространения
звукозаписей никогда нельзя считать решенным окончательно. С каждым годом
появляются все новые и новые варианты представления звуковых данных. Цифровой
звук (Digital Audio) обязан своим появлением, в первую очередь, компьютерам, т.к. только
на нем гарантируется отсутствие искажений при копировании данных (в плане
всеобщего, но не профессионального использования). Недостатком является лишь
большой объем занимаемого пространства (порой – десятки гигабайт), которое требуется для хранения записей. Это, правда, не
относится к специальным музыкальным данным, представляющим из
себя не запись реальной музыки, а набор файлов для конструирования
треков или тембров (*.dat, *.raw,
*.pxd, *.cel, *.dbl, *.au,
*.snd и т.п.).
Компьютер обрабатывает и воспроизводит звукозапись
только в том случае, если она представлена в цифровом формате. С помощью
микрофона мы можем преобразовывать колебания давления воздуха в электрические
колебания, и, записывая их на
магнитофонную пленку, получать аналоговую запись. Виниловые пластинки, магнитофонные
бобины и компакт-кассеты содержат запись звука в
аналоговом виде. Основные недостатки аналоговой записи заключаются в том, что
любые помехи и искажения, возникшие в ходе записи или при последующем ее
копировании, становятся частью записи и уже не могут быть удалены из исходного
звукового материала. Аналоговая запись практически непригодна для компьютерной
обработки, поскольку компьютер способен работать только с числами, так что для
обработки записи звуковые данные должны быть представлены в цифровой форме.
Одной из цифровых форм записи является MIDI,
используемый для создания электронной музыки на
компьютере. Такая запись называется синтезированной, поскольку сохраняются не
сами звуки, а параметры их синтеза и конструирования, передаваемые через MIDI-интерфейс.
Подобные записи крайне высокого качества, фактически – максимального, на что
способен любой, отдельно взятый компьютер, но также и весьма ограничены банками
звуков синтезатора. Поэтому, более распространен натуральный способ цифровой
записи звука, заключающийся в хранении самой формы звуковой волны. Это основной
способ цифровой записи звука, и в нем не делается различий в отношении того, какой
именно звук записывается.
Стандарт
натуральной цифровой записи звука обозначается, как РСМ (Pulse
Code Modulation) Wave.
В процессе записи, в течение каждой секунды многократно регистрируется текущая
амплитуда звуковой волны, в результате чего получаются как бы моментальные
снимки (фреймы) со звуковой волны. Из последовательности этих фреймов и состоит
звукозапись, носящая название waveform. На основе PCM построено создание звука во многих синтезаторах и звуковых модулях,
в частности: Roland и KORG старых модификаций, Alesis, E-mu, Ensoniq. Это не относится к виртуальным методам синтеза звука, прежде
всего, из-за большого объема, занимаемого PCM Wave.
Чем выше
частота сэмплирования (дискретизации) и больше битность (разрядность), тем более качественной окажется
запись. Однако произвольно увеличивать эти параметры не имеет смысла, ведь при
этом на порядок увеличивается объем записи. Поэтому, на пользовательском
(читай, бытовом) уровне были установлены минимальные значения, обеспечивающие
высокое качество – это качество компакт-диска.
В качестве стандарта CD Quality, чтобы обеспечить передачу всего диапазона частот, воспринимаемых
человеческим ухом, с учетом создания небольшого запаса и из-за некоторых
технических соображений, была выбрана частота в 44.1kHz при разрядности в 16bit.
Подобные характеристики обеспечивают необходимый динамический диапазон для
стерео записи. При воспроизведении звукозаписи, оцифрованной с использованием
таких параметров, получается практически естественный звук, поскольку
возникающие искажения остаются за пределами человеческого восприятия. Конечно,
параметры эти напрямую зависят от воспроизводящего CD устройства, аудио
колонок или звуковой платы компьютера. Но в наши дни вряд ли это очень большая
проблема. Даже для не очень производительного и мощного компьютера вполне
достаточно купить звуковую карту среднего класса (любую от Creative Labs, например) и
более-менее приличные колонки, для того, чтобы в квартире появился музыкальный
центр приличного качества (не Hi-Fi, надо отметить, но все же и не
дедушкина Spidola).
Пока еще основным средством распространения
музыкальных записей на сегодняшний день остаются аудио CD. Хотя есть предпосылки
презентаций и последующей продажи альбомов через Интернет (Madonna – одна из первых). Здесь не имеется в виду распространение через
Сеть сжатых вариантов оригинальных CD или саундтреков к фильмам. Проблема состоит лишь в том, что CD-audio трек, продолжительностью всего несколько минут, занимает дисковое
пространство в десятки мегабайт. Это серьезная проблема, затрудняющая хранение
больших архивов звукозаписей. Поэтому компакт диск на компьютере давно отступил
на второй план. Помогло этому стремительное развитие кодеков для аудио
компрессии. Идея создания форматов со сжатием, обеспечивающих компактное
хранение музыкальных записей, появилась прежде всего
для экономии места. При этом возникла необходимость в отбрасывании части
данных, что объективно приводит к ухудшению качества записи. Разные форматы
различаются тем, какие именно данные в них отбрасываются как несущественные. В
этом плане поистине уникален формат *.mp3. Он обеспечивает
звук, близкий к оригиналу, несмотря на многократное сжатие, что и позволяет
считать его одним из наиболее компактных и в то же время очень качественных
форматов. Большое количество компьютерных программ позволяют считывать звуковые
данные с музыкального компакт-диска и конвертировать их в *.wav или *.mp3-файлы. С хорошим софтом такое
преобразование СD треков (*.cda) в *.mp3 почти не
сопровождается ухудшением качества полученной записи. Так как сегодня имеется
практически неограниченный выбор различных музыкальных компакт-дисков, появляется
возможность столь же бесконечного пополнения своей коллекции звукозаписей. При
этом с помощью компьютера решаются проблемы копирования дисков и хранения
коллекции звукозаписей в компактном виде. Вы может создавать собственные подборки
музыкальных записей, составляя их по любому принципу, независимо от того, где
находились соответствующие записи первоначально: на компакт-дисках, в Интернете
или на DVD.
Не будем все же рассматривать аудио компрессию
как средство максимально компактно сохранить аудио информацию. Записать
немереное количество часов музыки немудрено, важно, скорее, в каком качестве
она будет представлена. Только высокие битрейты и
хорошо настроенные кодеры, могут минимально снизить потери качества при
переводе несжатого аудио в компрессированное. Сжатые
файлы значительно удобней прослушивать - мгновенный доступ к любому треку любого
альбома, необходимая информация об исполнителе, удобные программы для
воспроизведения – один WinAmp чего стоит! Но любое,
даже самое качественное сжатие, пусть даже оно сделано профессионалом, не будет
лучше оригинала. И уж обратные превращения сжатого звука в несжатый
никогда не будут полноценными.
Профессионалы предпочитают пользоваться
несжатыми звуковыми файлами. Как правило, это *.wav или broadcast *.wav с минимальными параметрами от 24bit-44.1kHz,
если речь идет о рабочей стерео дорожке. Чаще, в период создания произведения,
отдельно используются моно-файлы
для левого и правого каналов соответственно, позже производится их раздельный pre-мастеринг и микширование, затем post-мастеринг.
Насколько неточен *.mp3 по отношению к *.wav
показывает следующий пример. Достаточно сохранить 2-4-х секундный отрезок любой
песни в каждом из этих форматов и замерить поочередно их темп, допустим, в BeatMapper`e программы ACID Pro,
как мы увидим, что и длина, и темп этих отрезков различны. Если же подобным образом
сжать в *.mp3 (любого битрейта) drum loop (рисунок ударных), всегда имеющий темповую базу, окажется, что с ним
просто невозможно работать, поскольку главная определяющая – темп – не сходится
с указанной. Так что о компактности здесь говорить не приходится, только
винчестеров прибавляется, да DVD с *.wav`ами.
Способ сохранения звукозаписей претерпевал
глобальные изменения: от патефонных пластинок, доступных каждому после
исключительности фонографа, до DVD-audio дисков. DAD диски, продвигаемые ранее Classic
Records, использовали DVD-видео стандарт, позволяющий
запись на DVD 2-х канального звука 24bit-96kHz,
но не получили широкого распространения. Кстати, стандарт супер-аудио
CD (SACD), разработанный SONY и Philips,
тоже далеко не укатил. Для справки: это двухслойный
CD. Внешний полупрозрачный слой (HD) содержит 2-х или многоканальную
музыкальную запись с высоким разрешением и большой емкостью, сделанную с
использованием алгоритма SONY DSD (Direct Stream Digital).
Внутренний слой является обычным CD cлоем
с характеристиками 16bit-44.1kHz.
С технической точки зрения, полная совместимость с бытовыми центрами не смогла
быть полноценной, так как корректное считывание внутреннего слоя сквозь внешний доступно не на всех приводах.
Стандарт DVD-аudio официально появился осенью 1999 года. На данный день является
эталонным по звучанию изо всех, доступных широкому потребителю, хотя и наиболее
большим по объему занимаемого места. Его основные параметры (частота сэмплирования, число бит, каналов и т.д.) определяются при
изготовлении записи. Диск может содержать стерео трек в 24bit-96kHz,
и одновременно 5.1-surround версию того же трека. Частоты
сэмплирования от 44.1kHz до 192 kHz
с разрешением от 16 до 24bit. Записи, кодированные
на 176.4 или 192kHz, ограничены двумя stereo-каналами. Параметры записи выбираются в зависимости от
особенностей музыки, длительности фрагмента и качества записывающего
оборудования.
DVD-аудио проигрыватели снабжены конвертором,
делающим 2-х канальный стерео трек из многоканальных записей (downmix). Программируя
звучание полученного трека, в звуковой поток вставляются специальные коды, которые
управляют конвертором проигрывателя - S.M.A.R.T. Content (System Management Audio Resource Technique). Обычно в S.M.A.R.T. Content запрограммированы настройки декодера, выбранные оптимальными для звучания записи.
Существуют, конечно, и пользовательские программы,
к примеру, SONY AC-3
DVD Burner, способные записывать
на DVD диск файлы *.ac3, являющиеся
стандартом Dolby Digital для стерео или объемного (surround) звука.
Однако, DVD-аудио диск
при всей своей емкости не способен вместить 6 каналов цифрового аудио при 96kHz
с 24-битным разрешением. Поэтому компрессия MLP (Meridian
Loseless Packing) стала частью
DVD-аудио стандарта, и все DVD проигрыватели содержат MLP-декодер. Если на
диске используются только стереоканалы, можно не применять MLP компрессию,
обеспечивающую экономию места на диске до 30-40% по сравнению с неупакованным
объемом. Разработчики также уверяют, что MLP является процессом сжатия без
потерь и после распаковки данные абсолютно тождественны
первоначальным данным. Интересно, что то же самое пишут
про технологии Dolby Digital
и DTS (видимо, подобные заявления просто-напросто принадлежат серии: а сейчас –
реклама!).
DTS Digital Surround – еще одна из технологий объемного звука. Эта система
кодирования состоит из шести (5.1) 20-битных звуковых каналов мастер качества.
В процессе кодирования алгоритм DTS преобразует 2 канала
16-битного linear (линейного) PCM звука в 6 каналов по 20bit, по качеству звука намного
превосходящих исходный формат. DTS для лазерных дисков (LD),
компакт дисков (CD) и DVD использует степень
сжатия в четыре раза меньшую, чем Dolby Digital и, поэтому, считается более качественным.
Из профессиональных до сих пор самый
распространенный цифровой формат DAT (Digital
Audio Tape), обеспечивающий
2-х двухдорожечную стерео запись звука или цифровых данных (обычно, backups с настройками аппаратуры и\или рабочим
вариантом треков) на магнитную ленту. Частота сэмплирования
от 32 до 48kHz.
Minidisc (MD) рекордеры, и, соответственно, сам формат minidisk, в бытовом плане почему-то не особенно прижились, хотя и обеспечивают
высокое качество записи до 48kHz. Используются, в основном, в
малобюджетных студиях, для предварительного сведения материала, а также при
выступлениях под фонограмму. Но отцы-производители, прежде всего – SONY,
упорно не сдаются, о чем говорит факт появления на рынке рекордеров нового
поколения, использующих мини-диски с емкостью в 1Gb. Подключаемые к компьютеру через USB-порт,
они позволяют мгновенно скачать на рекордер более полутора часов музыки в *.wav-формате,
или в районе 10-14 часов музыки в формате *.mp3 при сжатии в 256Kbps.
При этом на мини-диске сохраняются все TAG-данные
о файлах. Внутренние конверторы таких рекордеров очень высокого класса, что позволяет
оцифровывать и сохранять файлы с превосходным качеством.
В звукозаписывающих студиях по-прежнему
используются цифровые рекордеры (Digital Recorder). Долгожитель – старый добрый AKAI DR-16.
Несмотря на то, что этой модели около десяти лет, даже по сегодняшним меркам
звучание его весьма профессиональное и не вызывает нареканий. В процессе
окончательного мастеринга записи с цифровых
рекордеров через микшерский пульт и цепь приборов обработки звука –
эквалайзера, кроссовера, компрессора, лимитера, приборов расширения стерео базы или психоакустики (эксайтер, виталайзер, и т.п.) – «сводятся» на специальный (не
компьютерный) CD-рекордер или DAT магнитофон. Существует
и вариант мастеринга на компьютере, когда все
процессы производятся на аппаратном уровне. Сжатие не применяется, рабочие *.wav-файлы
имеют характеристики от 24bit-44.1kHz (минимально) и выше. Из современных ультра-навороченных
рекордеров можно отметить Marantz, стоимостью в
несколько десятков тысяч у.е.
В операционных системах Windows
стандартным форматом для хранения волновых форм является формат *.wav.
Этот формат допускает хранение как моно, так и стерео записей, созданных с
любыми параметрами дискретизации. Файл в этом формате содержит как собственно
звуковые данные, так и информацию об использованных параметрах на вкладке “ Wave Properties”.
Формат MPEG-1 Layer (уровень) -III (*.mp3) был разработан более
десяти лет назад и с тех пор приобрел большую популярность, являясь на
сегодняшний день одним из наиболее востребованных форматов для хранения и
использования звуковых файлов. МР3-библиотеки, содержащие десятки часов музыки,
относительно невелики по объему, а также имеют возможность хранения сведений о
каждой записи – файлы TAG, где указаны названия
треков, имя исполнителя, год выхода в свет, стиль музыки и другая информация.
Данные сохраняются в самом музыкальном файле. Отмечу, что эта возможность
полностью отсутствует у многих форматов звукозаписей. Формат МРЗ обеспечивает
более, чем десятикратную экономию пространства
носителя за счет того, что из записи при конвертировании удаляются звуковые
компоненты, которые не могут быть распознаны слуховой системой человека. Эта
идея, отчасти, основана на принципе создания звука синтезатором. При извлечении
ноты на гитаре или фортепиано, помимо основного – слышимого – тона, звучит еще
16 неслышимых человеческим слухом звуков – абертонов,
делающих тембр любого акустического инструмента уникальным. При искусственном
создании звука с помощью осцилляторов синтезатора, генерируется лишь общий,
слышимый слой. От того, насколько правильно выстроены
огибающие амплитудного, резонансных и частотных фильтров (LFO,
VDF и VDA), и будет зависеть
качество и схожесть звука с имитируемым.
Использование МРЗ делает возможным хранение
большого количества музыки как на жестком диске
компьютера, так и в памяти портативных mp3-плееров. При наличии
устройства записи на компакт или DVD-диски можно
сформировать на них свои архивы, обеспечивая, таким образом, мобильность
использования и надежность хранения. МР3-файлы давно и плотно оккупировали Интернет.
Количество сайтов, содержащих музыку в этом формате,
уже, наверное, невозможно сосчитать. Интернет вообще сыграл важнейшую роль во
внедрении стандарта МР3 в практику, поскольку во времена его создания сетевые
требования принимались во внимание в первую очередь. До появления этого формата
распространение полноценных высококачественных музыкальных записей через Сеть
было практически невозможным. Время, которое требовалось на загрузку файлов с
музыкой, превосходило все разумные пределы. С появлением формата МРЗ время
скачивания уменьшилось в десятки раз, и в результате этого появился новый
способ распространения музыкальных записей.
Некоторые форматы, к примеру, GSM, используемый
в телефонной связи, моделирует особенности речевой системы человека и сохраняет
необходимый минимум данных, при котором речь остается разборчивой. GSM специально предназначен для сжатия речи при
низкой разрядности и малой частоте дискретизации. И этого вполне
достаточно для передачи в режиме реального времени и в цифровом виде телефонных
разговоров. На подобной же идее основан формат МРЗ, построенный на эффекте психоакустики, и ориентированный на особенности слуховой системы
человека. Идентичность исходной и конечной звуковой волны фактически не
требуется, достаточно обеспечить их одинаковое восприятие человеком.
Качество звучания вообще - весьма относительное
понятие, зависящее от того, кто именно слушает музыку, и какая запись для этого
человека является качественной. И если не учитывать явных дефектов вроде кликов
и шума, прерываний в записи, у каждого имеется свое понятие о том, что такое
"нормальный звук". Пока бытовым стандартом принято считать качество,
получаемое при воспроизведении CD-дисков с помощью
домашних центров и систем. Технически – это *.wav файлы с иным
расширением (*.cda) и параметрами 16bit-44.100Hz.
Записи в *.mp3 по звучанию очень близко подходят к стандарту
звучания CD, и на бытовом уровне обнаружить отличия между
записью на компакт-диске и той же самой записью, преобразованной в формат *.mp3,
почти невозможно, особенно на бытовом уровне. Понятен и тот факт, что качество
записи в *.mp3 оказывается тем выше, чем более качественным
был оригинал.
Возможны и обратные операции. Если у вас
возникло желание изготовить собственный аудио СD, то *.mp3-файлы легко конвертируются в несжатые *.wav-файлы
с характеристиками: 16bit-44.1kHz.
Теперь их можно записывать на
компакт-диск в виде стандартных звуковых дорожек. Все, что для этого требуется,
- наличие на компьютере устройства для записи CD и программ для записи. Профессиональные
программы работы со звуком, имеющие функции кодирования-декодирования, наиболее
предпочтительны для достижения хорошего результата. Некоторые
последние
версии: SONY ACID Pro 5.0, SONY Vegas 6.0, SONY Sound Forge 7.0 и 8.0, Adobe Audition 1.5, Cool Edit Pro 2.1, MAGIX Samplitude
8 Pro, Steinberg Cubase SX2, SX3, Steinberg MyMp3Pro
5, Ahead Nero 6.6.0.6 Ultra или Enterprise Edition. Быстро
переконвертировать треки
с
DVD-видео диска можно
с
помощью
программ
Ahead Nero Vision Express 3SE, DVD Audio Ripper 2х
от ImTOO Software Studio или
XMPEG 5х.
Что такое алгоритм кодирования? Цифровой
сигнал, упорядоченный по частотным составляющим спектра, фильтруется от шумов на
низких частотах и наивысших гармоник, которые человек в состоянии только
ощущать, но не слышать явно. Вспомните свои эмоции и ощущения на «живых»,
особенно рок-концертах, и сравните их с теми, что
испытываете при прослушивании даже на очень большой громкости аудио CD.
Бытовые, и даже профессиональные звуковые колонки не в состоянии воспроизвести весь
спектр звучания, доступный концертным многополосным
порталам с сабвуферами на громкости в сотни децибелл. Однако, и в том, и в другом случае вы слышите
добротный, чистый аудио сигнал.
На следующем этапе производится выявление и
удаление частот, которые не воспринимаются слуховым аппаратом в виду их
приглушения другими частотами. В результате, из цифрового аудио сигнала
исключается больше половины информации. В зависимости от уровня сложности
используемого алгоритма, может быть также произведен анализ предсказуемости
сигнала. Учитывая, что человек способен различать направление звучания
исключительно средних частот, в случае кодирования стерео сигнала, его можно
превратить в совмещенный стерео (Joint Stereo). В Joint Stereo происходит
разделение верхних и нижних частот и кодирование их в моно режиме, средние
частоты остаются в режиме стерео. В случае появления пустующего места в одном
из каналов, оно заполняется информацией, которая повышает качество другого
канала, либо не поместившейся до этого. Уже обработанный таким способом поток,
сжимается Huffman-алгоритмом, либо его упрощенным аналогом, что позволяет еще
более значительно уменьшить объем занимаемого места.
Группа MPEG (Moving Picture Coding Experts Group), дословно - "Группа экспертов по кодированию подвижных изображений",
была создана в начале 1988 года Международной организацией стандартов (International Standards Organization - ISO) и Международной электротехнической комиссией
(International Electro-Technical Commission - IEC). Группа была образована для создания
стандартов кодирования фильмов и аудио информации. По некоторым данным, в MPEG входит
более 300 специалистов-экспертов, работающих в различных научных и
академических учреждениях. Группой MPEG разработаны многие широко известные
стандарты аудио-видео кодирования.
В 1992 году появился MPEG-1 – стандарт хранения
и кодирования аудио-видео информации. В соответствии
со стандартами ISO, включает в себя три алгоритма различного уровня сложности: Layer I, Layer II и Layer III. Основная технология кодирования одинакова для
всех уровней, но для каждого уровня определен свой формат записи и свой
алгоритм сжатия.
MPEG-1 Layer I
позволяет аудио трек с характеристиками в 44.1kHz-16bit сохранить без явных искажений оригинала при 384Kbps.
Это дает возможность уменьшить место, занимаемое кодированным файлом в четыре
раза. Layer II дает такое качество уже при194Kbps,
а Layer III - при 128Kbps (стандартный
MP3-файл). Фактически, MPEG-1 Layer
III (*.mp3) позволяет сжимать информацию в 10-12 раз. Этот
вариант кодека и по сей день является базовым, эталонным для всех алгоритмов
сжатия аудио.
MPEG-1 Layer III имеет следующие профили
кодирования: постоянный битрейт (Constant
Bit Rate – CBR) - способ сжатия
оригинального аудио потока, где все составляющие его фреймы кодируются с
одинаковым битрейтом. Переменный битрейт
(Variable Bit Rate - VBR) кодирует каждый отдельный фрейм с разным битрейтом, выбор которого оптимален и подобран анализатором
кодека. Битрейт «на выбор» (Alternative Bit Rate - ABR) может кодировать
сигналы с любыми, даже не входящего в стандартную сетку, параметрами: например,
79 или 131Kbps. Это свойство ABR часто используется
мастерами отечественного «производства» MPEG-4 фильмов и фильмов, сжатых
при помощи DivX и XviD видео кодеков. Для
того, чтобы фильм поместился на стандартный (650-700 Mb) CD
в более-менее приемлемом качестве, и будучи сконвертированным с оригинального DVD (4.7 Gb), обычно урезаются незначительные (по
мнению производителя) части фильма, а звуковую дорожку помещают на оставшееся
пространство. В подавляющем большинстве, собирают эти фильмы
во всеядном VirtualDub,
либо более продвинутой его разновидности – NanDub. Отсюда и берутся самые немыслимые битрейты, которые
не в состоянии воспринять профессиональное оборудование. Взгляните на вкладку «Свойства»
таких *.avi-файлов, а потом попробуйте
на выбор несколько подобных фильмов раскрыть, например, в SONY Vegas или Adobe Premiere, и вы получите сообщение: аудио поток (stream audio) недоступен. Выручить могут, хотя, опять же,
не всегда, Cool Edit Pro, Steinberg Cubase SX,
Steinberg Nuendo или MAGIX Samlitude, имеющие функцию
отделения аудио потока от видео.
Методы кодирования *.mp3 следующие:
Dual Channel.
Два абсолютно независимых стерео канала. Как и следует из названия, этот режим
главным образом предназначен для кодирования двух параллельных, но различных
каналов (например, речь на английском и русском языках), а не стерео (т.е. не
два канала, несущих информацию о стереобазе). Этот
режим не рекомендуется использовать для кодирования стерео сигнала.
И еще о кино. Попадаются фильмы плана вышеуказанных MPEG-4 и подобных,
изготовленных (нарочно или по незнанию?) именно с применением этого метода.
Чтобы не мучаться, прослушивая потусторонние голоса, заглушающие нужную
звуковую дорожку, можно установить Morgan Audio Switcher. Он позволит
выключить мешающий канал в Windows Media Player`e.
Продолжим о методах кодирования: Stereo. Ну, стерео и стерео – объяснять нечего.
Joint Stereo
- это общее определение методов сжатия стерео информации, основанных на
использовании конкретных характеристик стерео режима. В Joint
Stereo фактически происходит кодирование лишь общей
составляющей каналов, а стерео на высоких частотах как бы моделируется
искусственно - синтезируется. Joint Stereo имеет разновидности: MS Stereo и Intensity Stereo
В дальнейшем появился MPEG-2 AAC
(Advanced Audio Coding). Известные алгоритмы на его базе: Homeboy AAC,
Liquifier Pro,
Astrid/Quartex и Mayah AAC. Более высокое качество
звучания по сравнению c MPEG-1 Layer
III обеспечивают две последние версии. Все приведенные разновидности данного
алгоритма не являются совместимыми между собой.
В основе MPEG-2 AAC имеется множество
дополнений, направленных на улучшение качества выходного сигнала и обработки
шумов, изменен банк фильтров и способ записи выходного потока. Встроенная
технология защиты от нелегального копирования (Multimedia
Protection Protocol) позволяет
контролировать распространение аудио данных.
Профили кодирования - Main,
дающий наивысшее качество звучания, и его упрощенные разновидности: LC (Low Complexity) и SSR (Scaleable Sampling Rate). Есть данные, что Main
режим AAC при компрессии в128Kbps, ощутимо превосходит
MPEG-1 Layer III того же битрейта.
MPEG-2 (1994) - стандарт кодирования для
цифрового телевидения – был специально разработан для кодирования сигналов
телевизионного вещания. Сегодня на нем базируется производство высококачественного DVD-видео. MPEG-4 -
стандарт для мультимедиа приложений и Digital Video (1998-1999) – и MPEG-7 (2000) - универсальный стандарт работы с
мультимедиа информацией, больше используются в качестве видео кодеков, поэтому
рассматривать их мы не будем.
Постоянно изобретаются и продвигаются на рынок
принципиально новые форматы записи звука, которые превосходили бы формат МРЗ по
степени сжатия и качеству записи. Прежде всего следует
отметить OggVorbis (*.ogg) и ADPCM, имеющий то же
расширение, что и стандартный *.wav-файл. С помощью этих
файлов, включая *.mp3, разработчики давно озвучивают
компьютерные игры, занимающие значительные объемы на жестких дисках.
Кодек ADPCM (Adaptive Differential Pulse Code Modulation) обеспечивает сжатие примерно в 4 раза, с незначительным
ухудшением качества звучания. В Windows XP является стандартным кодеком.
Кодек OggVorbis(*.ogg), появился в 2000 году, и, как все программное
обеспечение на его основе, свободен для распространения. Алгоритм OggVorbis принципиально схож с MPEG-1 Layer
II и MPEG-2 AAC, хотя имеет собственную модель психоакустики
и другой принцип сжатия, изначально поддерживает режим VBR. Диапазон изменения
чрезвычайно широк: от 8Kbps до 512Kbps. Предусматривает хранение внутри
музыкальных файлов TAG-данных об исполнителе и названии
композиции, а также графической информации. Возможно кодирование нескольких
каналов аудио и редактирование содержимого файлов с изменением битрейта без необходимости декодирования.
Коммерческий формат кодека Liquifier
Pro (*.lqt), основан на семействе
алгоритмов MPEG-2 AAC и считается одной из его наиболее качественных
реализаций. Формат LQT также изначально основан на VBR кодировании, поэтому для
него существует просто несколько режимов типа: bad, good,
best.
Windows Media
Audio (*.wma) и Windows
Media Video (*.wmv ) от Microsoft,
как и файлы PCM (*.wav), встроены в операционные системы Windows'2000
и Windows XP
и являются стандартными кодеками, свободными для распространения. Алгоритм WMA,
также как и все рассмотренные ранее, разрешает потоковое воспроизведение (stream playback). Качество WMA v8.0
и v9.0 практически не уступает качеству MPEG-1 Layer III и является сокращенной разновидностью файлов *.asf - универсального формата для хранения аудио и видео. Файлы *.wma. предназначены исключительно для хранения аудио
данных. Кодек разрабатывался фирмой Voxware и имел
название Voxware Audio Codec, но впоследствии был полностью перекуплен Microsoft Corp., доработан их
специалистами и переименован в Windows Media Audio.
Кодек MP3Pro создан в 2001 году компаниями Coding Technologies и Tomson Mulimedia, совместно с
институтом Fraunhofer. Файлы, сжатые с помощью технологии
MP3Pro, можно слушать на стандартных плеерах, однако, качество звучания при
этом будет заметно хуже, чем при воспроизведении в специализированном
проигрывателе, поскольку MP3Pro содержит два потока аудио. Обычные же проигрыватели распознают в
них только один поток, как будто это обычный *mp3-файл. В MP3Pro использована
новая технология SBR (Spectral Band
Replication), улучшающая использование модели психоакустики. Исходя из того, что среднего уровня
пользователю может потребоваться специальное оборудование для работы с этим
кодеком, рассматривать его нет смысла.
Все приведенные выше кодеки разработаны так,
что позволяют осуществлять декомпрессию и проигрывание звукового файла
одновременно с его закачиванием (download), что носит
название stream playback
(потоковое воспроизведение). Это очень удобно в Интернет, где скорость передачи
информации ограничена, особенно по Dial-up соединениям.
Конечно, в данной статье упомянуты далеко не
все алгоритмы и технологии сжатия звука. Более полные сведения, при желании, вы
сможете найти в Интернет или соответствующих книжных изданиях.
А пока для большинства пользователей формата *.mp3
проблемы качественного звука в течение долгих лет одни и те же: LAME или Fraunhofer IIS? 192 или 320Kbps? CBR или VBR? А, может, перебраться
на WMA или Dolby АС3? Хорошо, если это
не станет ночным кошмаром. Можно посоветовать одно: сделать копии на всех
имеющихся в системе кодеках во всех доступных режимах. Когда этот глобальнейший труд будет закончен, необходимо прослушать
все версии, причем, постоянно и крайне скрупулезно (по фреймам) сравнивая с исходником. После этого должно стать без разницы, какой
вариант оставлять, более того – надо ли его оставлять. Если же ни один из
вариантов не устроит (Прим.: для далеко задвинутых юзеров),
а жизни без песни - никакой, то придется опять слушать трек на CD диске. Здесь
круг и замыкается.
Параметры кодирования подбираются в зависимости
от конкретной задачи. Для записи голоса или звуковой информации при малых
требованиях к качеству, кодирование производится на битрейтах
порядка 8Kbps, полоса частот здесь ограничена 2-2,5kHz,
что будет сравнимо с качеством телефонной линии. Для
аудио данных с CD Quality (44.1kHz-16bit,
stereo) мнения расходятся. Не утруждая вас долгими объяснениями и
примерами, могу лишь сообщить, что битрейт, достаточный для точной (как в любом случае, так и с любым
кодеком – относительно точной) передачи CD-звучания, лежит в пределах от 256 до
320Kbps CBR,
stereo – и носит название CD Transparent Audio. Подобную настройку
можно без труда найти во всех пресетах – заводских
настройках - всех профессиональных аудио редакторов, которые программируют не совсем конченные тупицы... А вот LAME или Fraunhofer IIS – это уж кому что нравится. Разницы
практически нет. Разве что на анализаторе спектра проявится… И,
может, дело не только в качестве? Хороший фильм и на замусоленной пленке VHS в невозможном качестве можно по сотне раз смотреть.