ГОСТ Р 54712-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2 часть III (MPEG-2 audio)

Обложка ГОСТ Р 54712-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2 часть III (MPEG-2 audio)
Обозначение
ГОСТ Р 54712-2011
Наименование
Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2 часть III (MPEG-2 audio)
Статус
Действует
Дата введения
2013.01.07
Дата отмены
-
Заменен на
-
Код ОКС
33.170

ГОСТ Р 54712-2011

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ MPEG-2 ЧАСТЬ III (MPEG-2 AUDIO)

Digital sound broadcasting. Coding of sound broadcasting signals with redundancy reduction for transfer on digital communication channels. MPEG-2 part III (MPEG-2 audio)

ОКС 33.170

Дата введения 2013-07-01

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 13 декабря 2011 г. N 873-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 13818-3:1998* "Информационные технологии. Универсальное кодирование движущихся изображений и сопутствующего аудио. Часть III. Аудио" (ISO/IEC 13818-3:1998 "Information technology - Generic coding of moving pictures and associated audio information - Part III. Audio", NEQ) [1]

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - .

5 ВВЕДЕН ВПЕРВЫЕ

6 ПЕРЕИЗДАНИЕ. Июль 2020 г.

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

1 Область применения

Для достижения лучшего качества звучания на низких скоростях передачи данных (менее 64 кбит/с на канал), в частности по сравнению с [2], для уровней I, II и III ГОСТ Р 54711 вводятся три дополнительные частоты дискретизации (Fs): 16 кГц, 22,05 кГц и 24 кГц. Это позволяет поддерживать звуковые сигналы с полосами частот 7,5 кГц, 10,3 кГц и 11,25 кГц соответственно и обеспечивать передачу сигналов звукового вещания по стандартным каналам (ГОСТ Р 52742 и ГОСТ Р 53537).

Синтаксис, семантика и методы кодирования ГОСТ Р 54711 сохраняются в данном стандарте, за исключением определения поля частоты дискретизации, поля скорости передачи и таблиц распределения битов. Новые значения действительны, если в заголовке ГОСТ Р MPEG-1 audio битов ID равняется нулю. Для получения лучшей производительности звуковой системы параметры психоакустической модели, используемой в кодере, должны быть изменены, соответственно.

Вход кодера и выход декодера совместимы с существующими стандартами ИКМ, такими как ГОСТ 28376, ГОСТ 27667 и др.

Стандарт предназначен для регулирования отношений между оператором и пользователем в процессе установления соединения в части выполнения технических требований к электрическим параметрам, определяющим качество каналов и трактов звукового вещания с полосой передаваемых частот до 20000 Гц.

Настоящий стандарт используется при проектировании, вводе в эксплуатацию и техническом обслуживании каналов и трактов звукового вещания студийного качества (с полосой частот до 20000 Гц), организуемых в наземных и спутниковых линиях на магистральной, внутризоновых и местных сетях связи.

Действие настоящего стандарта распространяется на услуги местной, внутризоновой, междугородной и международной сети звукового вещания, независимо от используемой сетевой технологии. Это способствует обеспечению целостности сетей звукового вещания, устойчивости работы сети, выполнению норм на основные электрические параметры при разработке и проектировании каналообразующей аппаратуры звукового вещания (ГОСТ Р 52742 и ГОСТ Р 53537). Показатели, определенные настоящим стандартом, являются базовыми для профессиональной и бытовой аппаратуры - проигрывателей компакт-дисков, усилителей сигналов звуковой частоты и другого оборудования класса Hi-Fi.

Универсальная и совместимая многоканальная звуковая система применима для спутникового и наземного телевизионного вещания, цифрового звукового вещания (наземного и спутникового), так же как и для других носителей, например:

CATV- кабельное телевидение;

CDAD - кабельное цифровое звуковое вещание;

DAB - широковещательная передача цифрового звукового сигнала;

DVD - цифровой универсальный диск;

ENG - электронные новости (включая новости по спутнику);

HDTV - телевидение высокой четкости;

IPC - межличностное общение (видеоконференция, видеотелефон и т.д.);

ISM - интерактивные носители (оптические диски и т.д.).

2 Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ 27667 Система цифровая звуковая "Компакт-диск". Параметры

ГОСТ 28376 Компакт-диск. Параметры и размеры

ГОСТ Р 52742 Каналы и тракты звукового вещания. Типовые структуры. Основные параметры качества. Методы измерений

ГОСТ Р 53537 Звуковое вещание. Основные электрические параметры каналов и трактов студийного качества (с полосой частот 20... 20000 Гц)

ГОСТ Р 54711 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-1 часть III (MPEG-1 audio)

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него рекомендуется применять в части, не затрагивающей эту ссылку.

3 Термины, определения, символы и сокращения

3.1 Термины и определения

В настоящем стандарте применены следующие термины и сокращения с соответствующими определениями:

3.1.1 дополнительные данные: Часть потока битов, которая может использоваться для передачи вспомогательных данных.

3.1.2 динамическое перекрестное распределение: Метод сокращения объема многоканальных данных, при котором нелокализуемые в пространстве компонентны копируются в другой канал.

3.1.3 динамическое переключение канала передачи: Метод сокращения объема многоканальных данных, при котором для передачи выбираются наиболее ортогональные компонентны.

3.1.4 канал низкой частоты (LFE): Ограниченный по частоте канал для низкочастотных звуковых эффектов в многоканальной системе.

3.1.5 канал окружения: Звуковой канал, добавленный к фронтальным каналам ( и или , и ) для улучшения пространственного восприятия.

3.1.6 канал представления: Звуковые каналы на выходе декодера, соответствующие левой, центральной, правой, левой окружения и правой окружения позициям громкоговорителей.

3.1.7 многоканальная система: Комбинация звуковых каналов для создания пространственного звукового поля.

3.1.8 многоязычная система: Передача диалогов более чем на одном языке.

3.1.9 многоканальное предсказание: Метод понижения объема многоканальных данных, основанный на статистических зависимостях между каналами.

3.1.10 несоответствующая стерео: Часть стереофонического звукового сигнала, не способствующая пространственному восприятию.

3.1.11 обратная совместимость: Более новый стандарт кодирования обратно совместим с более ранним стандартом, если декодеры, разработанные для раннего стандарта кодирования, в состоянии декодировать весь или часть потока битов, произведенного в соответствии с более новым стандартом кодирования.

3.1.12 основной поток битов: Информация, представленная в потоке битов, который состоит из непрерывных основных фреймов. Этот поток битовов декодируется декодерами, выполненными в соответствии как с ГОСТ Р 54711, так и данным стандартом. Поток битов данного стандарта всегда состоит из основного потока битов, к которому может быть дополнительно добавлен поток битов расширения.

3.1.13 основной фрейм: Часть звукового фрейма данного стандарта, которая может обрабатываться декодером ГОСТ Р 54711 и содержит основной сигнал стерео.

3.1.14 ошибка предсказания: Разность фактического значения отсчета или элемента данных и его результата предсказания.

3.1.15 параметр: Переменная в пределах этого стандарта, которая может принимать одно значение из диапазона значений.

3.1.16 поток битов расширения: Информация, содержащаяся в дополнительном потоке битов, связанным с основным звуковым потоком битов на системном уровне, для поддержки скоростей передачи, не определенных в ГОСТ Р 54711. Дополнительный поток битов расширения содержит оставшиеся многоканальные и (или) многоязычные данные.

3.1.17 предсказание: Использование предсказателя с целью получить оценку значения отсчета или элемента данных, которые должны быть декодированы.

3.1.18 предсказатель: Линейная комбинация ранее декодированных значений отсчетов или элементов данных.

3.1.19 прямая совместимость: Более новый стандарт кодирования обладает прямой совместимостью с более старым стандартом кодирования, если декодеры, разработанные для более нового стандарта кодирования, в состоянии декодировать потоки битов более старого стандарта кодирования.

3.1.20 сведение: Матрицирование каналов для получения меньшего числа каналов.

3.1.21 флаг: Переменная, которая может принимать только одно из двух значений, определенных в этом стандарте.

3.1.22 фрейм расширения: Часть аудио фрейма, которая может быть декодирована только декодером данного стандарта. Этот дополнительный фрейм содержит оставшиеся многоканальные и (или) многоязычные данные, так же как и дополнительные данные.

3.1.23 центральный канал: Один из каналов многоканальной звуковой системы, в котором сосредоточена информация о передней части пространственного звукового образа.

3.2 Символы и сокращения

3.2.1 Арифметические операторы

Математические операторы, используемые в настоящем стандарте, аналогичны используемым в языке программирования С. Однако целочисленное деление с усечением и округление определены особым образом. Побитовные операторы определяются с учетом представления чисел в дополнительном коде. Нумерация и счетчики циклов обычно начинаются с нуля.

+ Сложение.

- Вычитание (как бинарный оператор) или отрицание (как унарный оператор).

++ Инкремент.

- - Декремент.

* Умножение.

^ Возведение в степень.

/ Целочисленное деление с округлением к меньшему по модулю целому. Например, 7/4 и -7/4 округляются до единицы, -7/4 и 7/-4 округляются до минус единицы.

// Целочисленное деление с округлением к ближайшему целому числу. Полуцелые числа округляются в сторону ближайшего большего по модулю числа, если не указано другое. Например, 3//2 округляется до двух, а -3//2 округляется до минус двух.

D/V Целочисленное разделение с округлением результата в сторону - .

| | Абсолютное значение

, когда 0

0, когда 0

, когда 0

% Деление с остатком. Операция определена только для положительных чисел.

Sign ( )

Принимает следующие значения:

Sign 1, когда 0;

Sign 0, когда 0;

Sign -1, когда 0.

NINT () Округление до ближайшего целого. Возвращает самое близкое к вещественному аргументу целочисленное значение. Полуцелые числа округляются в сторону от нуля.

Синус.

Косинус.

Экспонента.

Квадратный корень.

Логарифм по основанию 10.

Натуральный логарифм.

Логарифм по основанию 2.

3.2.2 Логические операторы

II Логическое ИЛИ.

&& Логическое И.

! Логическое НЕ.

3.2.3 Операторы сравнения

> Больше.

> = Больше или равно.

< Меньше.

<= Меньше или равно.

== Равно.

! = Не равно.

max [,...,] Максимальное значение.

min [,...,] Минимальное значение.

3.2.4 Побитовные операторы

Использование побитовных операций подразумевает представление чисел в дополнительном коде.

& Побитовное И.

| Подбитовное ИЛИ.

>> Сдвиг вправо.

<< Сдвиг влево.

3.2.5 Оператор присвоения

= Оператор присвоения.

3.2.6 Мнемоники

Следующие мнемоники подлежат определению для описания различных типов данных, используемых в кодированном потоке битов.

bslbf

Битововая строка, младший бит слева, в соответствии с настоящим стандартом. Битововые строки пишутся, как строка единиц и нулей внутри одинарных кавычек, например '1000 0001'. Пробелы внутри битововой строки вводятся для удобства чтения и не имеют никакого значения.

centre_chan

Индекс центрального канала.

centre_limited

Переменная, показывающая, что субполоса центрального канала не передается. Это используется в случае режима фантомного кодирования канала центра.

ch

Канал. Если ch имеет значение 0, это соответствует левому каналу стереопары или первому из двух независимых каналов.

dyn_cross

dyn_cross означает, что динамическое перекрестное распределение используется для определенного канала передачи и определенной субполосы.

gr

Гранула 3 * 32 субполосных отсчета в Уровне II, 18 * 32 субполосных отсчета на Уровне III.

,

Суммарные звуковые сигналы стерео.

, , , ,

Звуковые сигналы: левый, центральный, правый, левый окружения, правый окружения.

, , , ,

Взвешенные звуковые сигналы: левый, центральный, правый, левый окружения, правый окружения. Взвешивание необходимо по двум причинам:

а) все сигналы должны быть ослаблены перед кодированием во избежание перегрузки при вычислении суммарного сигнала стерео;

б) матричные уравнения содержат коэффициенты затухания и другую обработку, такую как сдвиг фазы.

Взвешенные и обработанные сигналы кодируются, передаются и денормализуются в декодере.

left_surr_chan

Индекс левого канала окружения.

main_data

Часть потока битов, которая содержит масштабные коэффициенты, кодированные методом Хаффмана данные и дополнительную информацию.

mlsblimit

Максимальная субполоса в многоязычной части потока битов.

mono_surr_chan

Индекс моноканала окружения. Этот индекс идентичен индексу левого канала объемного звучания.

msblimit

Максимальная субполоса в многоканальной части расширения потока битов.

nch

Число каналов; равно 1 для single_channel mode и 2 в других режимах.

nmch

Число каналов в многоканальной части расширения.

nmlch

Число многоязычных каналов.

npred

Число допустимых предсказаний.

npredcoeff

Число используемых коэффициентов предсказания.

part2_length

Число main_data битов, используемых для масштабных коэффициентов.

pci

Индекс предсказывающего устройства [0, 1, 2].

px

Индекс предсказывающего устройства [0, 1, npred-1].

right_surr_chan

Индекс правого канала окружения.

rpchof

Коэффициенты остатка от деления на порождающий полином, сначала следует коэффициент высшего порядка.

sb

Субполоса.

sbgr

Группы отдельных субполос.

sblimit

Номер самой низкой субполосы, для которой не были выделены биты.

scfsi

Информация о выборе масштабного коэффициента.

switch_point_l

Номер полосы масштабных коэффициентов (полоса "длинного" блока), с которой производится переключение окон.

switch_point_s

Номер полосы масштабных коэффициентов (полоса "короткого" блока), с которой производится переключение окон.

, , , ,

Аудиоканалы передачи. Соответствие звуковых сигналов каналам передачи определяется процедурой дематрицирования и информацией о выделении канала передачи.

tc

Переданный канал.

uimsbf

Целое число без знака, старший бит первый.

vlclbf

Код с переменной длиной слова, левый бит первый, где "левый" относится к порядку, в котором пишутся коды с переменной длиной.

window

Номер текущего временного интервала в случае block_type = = 2, 0window2 (Уровень III).

В многобайтовых словах старший байт является первым.

3.2.7 Константы

3,14159265358...

2,71828182845...

3.3 Метод описания синтаксиса потока битов

Поток битов, полученный декодером, описывается в 4.1.1 и 4.2.3. Каждый элемент данных описывается именем, длиной в битах, мнемоникой типа и порядком передачи.

Действие, вызванное декодируемым элементом данных в потоке битов, зависит от значений этого элемента данных и элементов данных, декодированных ранее. Декодирование элементов данных и определение параметров состояния, используемых в их декодировании, описываются в 4.1.2, 4.1.3, 4.2.4 и 4.2.5.

Для выражения условий присутствия элементов данных используются следующие конструкции:

В этом синтаксисе используется принятое в языке С соглашение о том, что переменная или выражение, возвращающие ненулевое значение, эквивалентны результату "истина".

Следует обратить внимание на наиболее распространенные варианты использования этой конструкции:

Группа элементов данных может содержать вложенные условные конструкции. Для компактности скобки { } могут быть опущены, когда следует только один элемент данных.

data_element [ ]

Является массивом данных.

Число элементов массива зависит от контекста.

data_element [n]

Является ()-м элементом массива данных.

data_element [m] [n]

Является элементом ()-й строки ()-го столбца двухмерного массива данных.

data_element [l] [m] [n]

Является (), (), ()-м элементом трехмерного массива данных.

data_element [m...n]

Содержит битовы массива data_element с по включительно.

Знание самого синтаксиса потока битов в разделах 4.1.3 и 4.2.5 не следует считать достаточным для декодирования. В частности, это лишь определяет корректный и свободный от ошибок входной поток битов. Для правильного начала декодирования реальные декодеры должны иметь средства обнаружения стартовых последовательностей.

bytealigned()

Возвращает 1, если текущая позиция находится на границе байта, так что следующий бит потока будет первым битом нового байта. В противном случае функция возвращает 0.

nextbits()

Реализует сравнение строки битов со строкой битов на входе декодера.

next_start_code()

Удаляет все нулевые битовы и биты стаффинга и определяет положение следующего синхрослова.

Эта функция проверяет, является ли текущая позиция побайтно выровненной. Иначе присутствуют нулевые биты стаффинга. Это означает, что перед синхрословом может присутствовать любое количество нулевых байтов. В связи с этим синхрослово всегда является побайтно выровненным и ему может предшествовать любое число нулевых битов стаффинга.

4 Задачи по совершенствованию обработки цифровых сигналов звукового вещания с целью повышения качества передачи

4.1 Требования к расширению ГОСТ Р 54711 для поддержки низких частот дискретизации

4.1.1 Дополнительные частоты дискретизации

Для достижения лучшего качества звучания на низких скоростях передачи данных (менее 64 кбит/с на канал), в частности по сравнению с [1], для уровней I, II и III предусматриваются три дополнительные частоты дискретизации (Fs): 16 кГц, 22,05 кГц и 24 кГц. Дополнительные частоты дискретизации позволяют поддерживать звуковые сигналы с полосами частот 7,5 кГц, 10,3 кГц и 11,25 кГц соответственно. Синтаксис, семантика и методы кодирования ГОСТ Р 54711 сохраняются, за исключением определения поля частоты дискретизации, поля скорости передачи и таблиц распределения. Новые значения действительны, если бит ID в заголовке MPEG-1 audio равняется нулю. Чтобы получить лучшую производительность, параметры психоакустической модели, используемой в кодере, должны быть соответственно изменены.

С указанными частотами дискретизации продолжительность аудиофрейма соответствует:

Уровень

Частота дискретизации, кГц

16

22,05

24

I

24 мс

17,41 мс

16 мс

II

72 мс

52,24 мс

48 мс

III

36 мс

26,12 мс

24 мс

4.1.2 Спецификация кодированного звукового потока битов

4.1.2.1 Последовательность звукового сигнала

См. ГОСТ Р 54711, 5.1.1.

4.1.2.2 Фрейм звукового сигнала

См. ГОСТ Р 54711, 5.1.2.

4.1.2.3 Заголовок

См. ГОСТ Р 54711, 5.1.3.

4.1.2.4 Проверка на ошибки

См. ГОСТ Р 54711, 5.1.4.

4.1.2.5 Данные звукового сигнала. Уровень I

См. ГОСТ Р 54711, 5.1.5.

4.1.2.6 Данные звукового сигнала. Уровень II

См. ГОСТ Р 54711, 5.1.6.

4.1.2.7 Данные звукового сигнала. Уровень III

Ниже определяется структура основного потока битов данных. Поле main_data в audio_data() содержит байты основных данных. Однако из-за свойств кодов Хаффмана, используемых на Уровне III, основные данные кадра обычно не следуют непосредственно за заголовком и служебной информацией об этом кадре. Данные main_data начинаются в потоке битов перед заголовком фрейма при отрицательном смещении, заданном значением main_data_begin.

4.1.2.8 Дополнительные данные

См. ГОСТ Р 54711, 5.1.8.

4.1.3 Семантика звукового потока битов

4.1.3.1 Последовательность звуковых сигналов

См. ГОСТ Р 54711, 5.2.1.

Фрейм Уровня III с низкой частотой дискретизации содержит информацию только о 576 отсчетах в отличие от 1152 отсчетах фрейма Уровня III ГОСТ Р 54711.

4.1.3.2 Звуковой фрейм

См. ГОСТ Р 54711, 5.2.2.

4.1.3.3 Заголовок

Первые 32 битова (четыре байта) являются заголовком, который одинаков для всех уровней.

syncword - см. ГОСТ Р 54711, 5.2.3.

ID - Бит-идентификатор алгоритма. Равен '1' для ГОСТ Р 54711, значение '0' означает режим малых частот дискретизации.

Layer - ГОСТ Р 54711, 5.2.3.

protection_bit - см. ГОСТ Р 54711, 5.2.3.

bitrate_index - Четыре бита, определяющие скорость передачи. При равенстве всех битов нулю устанавливается "свободный формат", при котором используется фиксированная скорость передачи, не указанная в списке. "Фиксированная" означает, что фрейм содержит или , или слотов, в зависимости от значения битова дополнения. bitrate_index является индексом таблицы, которая одинакова для Уровней II и III, но отличается для Уровня I.

bitrate_index указывает на полную скорость передачи независимо от режима (стерео, joint_stereo, dual_channel, single_channel), в соответствии со следующей таблицей, верной при ID = = '0':

bitrate_index

Скорость передачи (кбит/с) для 16; 22,05; 24 кГц

Уровень I

Уровни II и III

'0000'

Свободный

Свободный

'0001'

32

8

'0010'

48

16

'0011'

56

24

'0100'

64

32

'0101'

80

40

'0110'

96

48

'0111'

112

56

'1000'

128

64

'1001'

144

80

'1010'

160

96

'1011'

176

112

'1100'

192

128

'1101'

224

144

'1110'

256

160

'1111'

Запрещено

Запрещено

Декодер, работая в свободном режиме, не обязан поддерживать скорости передачи выше чем 256 кбит/с, 160 кбит/с, 160 кбит/с на Уровнях I, II и III соответственно.

sampling_frequency - Указывает на частоту дискретизации при ID = = '0', согласно следующей таблице:

sampling_frequency

Частота (кГц)

'00'

22,05

'01'

24

'10'

16

'11'

Зарезервировано

При смене частоты дискретизации возможен сброс аудиодекодера.

padding_bit - см. ГОСТ Р 54711, 5.2.3. Дополнение нулями необходимо при частоте дискретизации 22,05 кГц. Дополнение нулями может также требоваться в свободном формате.

private_bit - см. ГОСТ Р 54711, 5.2.3.

mode - см. ГОСТ Р 54711, 5.2.3.

mode_extension - см. ГОСТ Р 54711, 5.2.3.

copyright - см. ГОСТ Р 54711, 5.2.3.

original/copy - см. ГОСТ Р 54711, 5.2.3.

emphasis - см. ГОСТ Р 54711, 5.2.3.

4.1.3.4 Проверка на ошибки

Для Уровней I и II, см. ГОСТ Р 54711, 5.2.4.

Для Уровня III, для проверки на ошибки используются следующие биты:

- биты 16…31 заголовка;

- биты 0...71 audio_data для режима single channel;

- биты 0...135 audio_data для других режимов.

4.1.3.5 Звуковые данные. Уровень I

См. ГОСТ Р 54711, 5.2.5.

4.1.3.6 Звуковые данные. Уровень II

См. ГОСТ Р 54711, 5.2.6.

4.1.3.7 Звуковые данные. Уровень III

См. ГОСТ Р 54711, 5.2.7 за исключением различного определения scalefac_compress.

scalefac_compress[ch] - Определяет количество битов, используемых для передачи масштабных коэффициентов, и устанавливает или сбрасывает префлаг. Если префлаг установлен, значения таблицы добавляются к масштабным коэффициентам, как описано в ГОСТ Р 54711, (таблица Б.6).

4.1.3.8 Дополнительные данные

См. ГОСТ Р 54711, 5.2.8.

4.1.4 Процесс декодирования звука

4.1.4.1 Декодирование звука. Уровни I и II

См. ГОСТ Р 54711, 5.3.2, 5.3.3. Для Уровня II вместо таблиц Б.2 ГОСТ Р 54711 должна использоваться таблица Б.1 настоящего стандарта.

4.1.4.2 Декодирование звука. Уровень III

Декодирование уровня III при использовании низких частот дискретизации выполняется аналогично декодированию Уровня III в ГОСТ Р 54711 при следующих различиях.

1. При низких частотах дискретизации фрейм Уровня III содержит только одну гранулу, в отличие от ГОСТ Р 54711, где фрейм Уровня III состоит из двух гранул. Переменная 'gr' больше не существует. Число отсчетов на фрейм - 576. В связи с этим константа, которая используется для вычисления длины фрейма, и алгоритм дополнения нулями должны быть изменены для уровня III в соответствии со следующей таблицей.

Константа

Значения констант для Уровня III

ГОСТ Р 54711

Настоящий стандарт

slots_per_frame

144

72

frame_size

1152

576

2. Если выбран режим intensity stereo, то максимальное значение интенсивностной позиции укажет на недопустимую позицию. Полосы масштабных коэффициентов в ГОСТ Р 54711 с недопустимой интенсивностной позицией должны декодироваться согласно уравнениям MS, в соответствии с ГОСТ Р 54711 раздел 5.5.5.2, если MS stereo включен, или оба канала независимы, если MS stereo не включен.

3. Как и в ГОСТ Р 54711, последняя полоса масштабных коэффициентов, для которой не применяется интенсивностное кодирование, равна последней полосе масштабных коэффициентов правого канала, не являющейся полностью нулевой, и для которой соответствующий масштабный коэффициент не указывает на недопустимую интенсивностную позицию. Как в ГОСТ Р 54711, декодирование нижней границы при intensity stereo выполняется индивидуально для каждого окна в случае коротких блоков {block_type = = '10'). Это означает, что, как и в ГОСТ Р 54711, 5.3.4, вычисление границы интенсивности применяется к значениям каждого короткого окна и допускается индивидуальное декодирование intensity stereo для короткого окна.

4. Шаги 4 и 5 описанного процесса декодирования для декодирования intensity stereo изменены:

шаг 4

;

шаг 5

.

Значения и вычисляются по переданному масштабному коэффициенту/ следующим образом:

if (0)

1,0

1,0

else if ( % 2 = = 1)

1,0

else

1,0

Коэффициент декодирования intensity stereo i0 определяется no intensity_scale (1/ for intensity_scale = = 1, else 1/). Значение intensity_scale определяется из значения scalefac_compress правого канала:

intensity_scale = scalefac_compress % 2

5. Масштабные коэффициенты

Масштабные коэффициенты декодируются в соответствии с slen1, slen2, slen3 и slen4 и nr_of_sfb1, nr_of_sfb2, nr_of_sfb3, nr_of_sfb4, которые определяются из значений scalefac_compress.

Количество битов, используемых для кодирования масштабных коэффициентов, называется part2_length и вычисляется следующим образом:

part2_length = nr_of_sfd1*slen1+nr_of_sfb2*slen2+nr_of_sfb3*slen3+nr_of_sfb4*slen4

Масштабные коэффициенты передаются в четырех разделах. Количество масштабных коэффициентов в каждом разделе (nr_of_sfb1, nr_of_sfb2, nr_of_sfb3 и nr_of_sfb4), длина масштабных коэффициентов в каждом разделе (slen1, slen2, slen3 и slen4) и префлаг декодируются по scalefac_compress согласно следующей процедуре:

В полосах масштабных коэффициентов, где slen1, slen2, slen3 или slen4 являются нулями и соответствующие nr_of_slen1, nr_of_slen2, nr_of_slen3 или nr_of_slen4 не равны нулю, масштабные коэффициенты этих полос должны быть обнулеваны, что соответствует нулевой позиции интенсивностности.

4.2 Требования к расширению ГОСТ Р 54711 для поддержки многоканального звука

4.2.1 Кодирование многоканального звука при низкой скорости передачи

4.2.1.1 Универсальная многоканальная звуковая система

Стандарт на низкоскоростное кодирование моно- и стереозвуковых сигналов был установлен в ГОСТ Р 54711. Настоящий стандарт применим для кодирования высококачественных цифровых аудиосигналов без изображений для каналов передачи с ограниченной пропускной способностью.

Стандарт аудиокодирования ГОСТ Р 54711 может использоваться как вместе с MPEG-1 Видео, так и с MPEG-2 Видео, если требования ограничены двухканальным стерео. MPEG-2 Аудио (настоящий стандарт) обеспечивает расширение до 3/2 многоканального аудио и дополнительного НЧ-канала (LFE).

В данном стандарте регламентируется субполосная система аудиокодирования под названием MPEG-AudioMultichannel, которая может использоваться для высококачественного цифрового многоканального и/или многоязычного звука на носителях или для передачи по каналам связи с ограниченной емкостью. Одной из основных характеристик является обратная совместимость с ГОСТ Р 54711 моно-, стерео- или двухканальными аудиопрограммами. Эта ситема разработана для использования в различных приложениях.

Системы многоканального звука обеспечивают улучшенное стереозвучание по сравнению со стандартными двухканальными системами. Улучшенное звучание требуется не только для приложений сопровождения изображений, но также и для звуковых приложений.

Универсальная и совместимая многоканальная звуковая система применима для спутникового и наземного телевизионного вещания, цифрового звукового вещания (наземного и спутникового), так же как и для других носителей.

4.2.1.2 Представление многоканального звука

4.2.1.2.1 3/2-stereo плюс LFE

Для стереофонического представления звуковой программы рекомендуется использование дополнительного центрального канала и двух каналов окружения и вместе с фронтальными левым и правым каналами и . Такая система названа 3/2-stereo (3 фронтальных канала/2 канала окружения) и требует передачи соответственным образом форматированных пяти аудиосигналов.

Для звукового сопровождения изображения (например, HDTV) три фронтальных канала обеспечивают достаточную направленность и четкость фронтальных звуковых образов, связанных с изображением, в соответствии с принятой в кино практикой. Основным преимуществом является "устойчивый центр", который обеспечен при любом расположении слушателя и важен для большинства диалогов.

Кроме того, для приложений, ориентированных только на звуковые программы, формат 3/2-stereo является улучшением двухканального стерео. Добавление одной пары каналов окружения позволяет получить улучшение эффекта пространственного звучания.

Канал НЧ (в данном случае канал LFE) может быть добавлен к любой из этих конфигураций. Назначение этого канала заключается в расширении диапазона воспроизводимых нижних частот и увеличении их уровня громкости. В этом смысле данный канал несет ту же функцию, что и канал LFE, предложенный киноиндустрией для их цифровых звуковых систем.

Канал LFE не должен использоваться для всего низкочастотного контента многоканальной звуковой программы. Канал LFE является дополнительным в ресивере, и, следовательно, должен использоваться только для низкочастотных эффектов большого уровня громкости. Канал LFE исключен из любых операций дематрицирования в декодере. Частота дискретизации канала LFE соответствует частоте дискретизации основных каналов, разделенной на 96. Это обеспечивает 12 отсчетов LFE в пределах одного аудиофрейма. Канал LFE способен передавать сигналы в диапазоне от 15 до 120 Гц.

4.2.1.2.2 Совместимость

В результате широкого использования стандартных стереопрограмм с двумя каналами (2/0-stereo), должна поддерживаться совместимость с существующими системами озвучания 2/0-stereo или с существующими матрицируемыми ресиверами объемного звука. Это означает, что для многих приложений основной сигнал стерео, содержащий сумму сигналов многоканальной системы, должен быть передан вместе с многоканальной аудиоинформацией. Соответствующие пары выражений являются (1, 2), (3, 4), (5, 6) и (7, 8).

, (1)

(2)

или

, (3)

(4)

или

, (5)

, (6)

или

, (7)

, (8)

где образуется из и вычислением моносоставляющей.

Затем к этой составляющей применяются сжатие динамического диапазона и фазовый сдвиг на 90 градусов. Пара [(7), (8)] приемлема для существующих декодеров объемного звука с матрицированием.

Формат потока битов настоящего стандарта выбран так, чтобы аудиодекодер мог правильно декодировать основную стереоинформацию в соответствии с одной из приведенных выше парой выражений. В случае использования этой части данного стандарта существует три возможных варианта обеспечения пользователя основным стереозвуком вместе с многоканальной аудиоинформацией.

1. Непосредственная передача 2/0-stereo вместе с многоканальной информацией в одном потоке битов с обеспечением обратной совместимости с ГОСТ Р 54711, во избежание одновременной передачи, обеспечивает наиболее рациональное использование скорости передачи, требуемой для обеих программ - 2/0-stereo и многоканальной. Дополнительные преимущества состоят в том, что обе программы строго синхронизируются по отсчетам ИКМ и что информация, связанная с аудио, которая передается во вспомогательном поле данных потока битов MPEG-Аудио, должна быть передана всего один раз. Создание стерео из многоканального аудиосигнала выполняется кодером настоящего стандарта. Для этого в данной части стандарта представлен ряд матричных опций, соответствующих выражениям (1) и (2), (3) и (4).

2.Одновременная передача многоканального аудиосигнала, кодированного в соответствии с настоящим стандартом, вместе с сигналом 2/0-stereo, кодированным в соответствии с ГОСТ Р 54711, требует использования двух независимых потоков битов, которые могут быть мультиплексированы и переданы совместно [1]. При наличии обоих потоков синхронизацию обеспечивает провайдер программы. Кроме того, опция одновременной передачи требует более высокой скорости передачи, так как вместо пяти каналов в случае 3/2-многоканального звука должны быть переданы семь звуковых каналов. Однако опция одновременной передачи учитывает индивидуальные требования, то есть звукооператор имеет возможность контролировать баланс 2/0-stereo.

3. Передача только многоканального сигнала при использовании нематрицируемого режима [выражения [5],[6] возможна со стереодекодером, который должен декодировать все пять каналов и переводить их в стереорежим. В то же время сведение сигналов в стереорежим может быть выполнено в декодере перед блоком фильтров, вследствие чего фильтрации будут подвергнуты отсчеты только двух каналов. Однако это значительно усложняет алгоритм декодирования.

Если требуется совместимость с существующими матрицируемыми декодерами объемного звука, эта часть стандарта снова предоставляет три решения.

1. Для гарантирования высокой производительности относительно скорости передачи, требуемой как для 3/2-multichannel, так и для матрицируемого объемного звука, последний может быть передан в стереоканале, имеющем обратную совместимость. Матричная опция '10' согласно уравнениям (7) и (8) обеспечивает соответствующую стереосовместимость для сигнала, который передается в обычных стереоканалах. Матрицируемый сигнал окружения, подходящий для существующих матрицируемых декодеров, может быть получен в ресивере при использовании двухканального декодера по ГОСТ Р 54711. Соответствующий 3/2-канальный выходной сигнал может быть получен при использовании декодера, описанного в настоящем стандарте.

2. Для одновременной передачи матрицируемого сигнала окружения, использующего ГОСТ Р 54711 и 3/2-канального звукового сигнала, использующего настоящий стандарт, необходима более высокая скорость передачи. Эта опция допускает регулирование звукооператором баланса матрицируемых каналов откружения.

Недостаток данного решения заключается в увеличении скорости передачи цифрового потока из-за необходимости передавать семь звуковых каналов вместо пяти при использовании матричной опции '10'.

3. Для передачи только многоканального сигнала при использовании нематрицируемого режима каждый декодер стерео должен иметь возможность декодировать все пять сигналов и выполнять микширование согласно уравнениям (7) и (8). Несмотря на то что микширование может быть применено в декодере перед блоком фильтров и фильтрации подлежат только два канала, это значительно усложняет декодер.

Иерархия аудиоформатов, обеспечивающих пониженное число каналов, качество (2/0-stereo или даже моно) и соответствующий набор вниз суммирующих уравнений, дана в [3]. Альтернативными аудиоформатами, которые могут использоваться при экономических или физических ограничениях канала передачи, являются 3/1, 3/0, 2/2, 2/1, 2/0 и 1/0. Соответствующие расположения громкоговорителей - 3/2, 3/1, 3/0, 2/2, 2/1, 2/0 и 1/0.

Основная задача состоит в том, чтобы расширить существующие 2/0-stereo аудиосистемы путем передачи дополнительных звуковых каналов (центрального, окружения) без одновременной передачи. Это условие обратной совместимости с существующими ресиверами подразумевает использование матриц совместимости: декодер предыдущего поколения должен воспроизводить два стандартных основных сигнала стерео , а многоканальный декодер - полный 3/2-stereo набор каналов основного стереосигнала и сигналов расширения.

4.2.1.3 Многоязычная поддержка

В ряде случаев требуются многоканальное стерео и двуязычные программы или многоязычные комментарии, в частности в HDTV. Эта часть данного стандарта предусматривает альтернативные конфигурации звуковых каналов в аудиосистеме с пятью каналами, например двуязычная 2/0 программа стерео или стереозвук 2/0, 3/0 плюс сопроводительные службы (например "чистый диалог" для слабослышащего, комментарии для людей со слабым зрением, многоязычные комментарии и т.д.). Важной частью конфигурации является возможность воспроизведения диалога комментария (например, через центральный громкоговоритель) вместе с музыкой/эффектами (например, документальный фильм, спортивные передачи).

4.2.2 Основные параметры многоканальной системы звукового кодирования

Передача пяти аудиосигналов системы 3/2 требует наличия пяти каналов передачи (хотя в контексте сжатия сигналов эти каналы не обязательно должны быть независимы). Чтобы два из переданных сигналов могли обеспечить стереорежим, исходные звуковые сигналы как правило объединяются перед кодированием в линейной матрице. Эти комбинированные сигналы (и их каналы передачи) обозначаются , , , и .

4.2.2.1 Совместимость с ГОСТ Р 54711

Многоканальная система полностью совместима с ГОСТ Р 54711. Для многоканального аудиопотока битов наличие обратной совместимости означает, что аудиодекодер ГОСТ Р 54711 будет должным образом декодировать основную стерео информацию (см. 4.2.1.2.2). Совместимость с ГОСТ Р 54711 означает, что многоканальный аудиодекодер MPEG-2 может декодировать поток битов звука, сформированного по ГОСТ Р 54711.

Обратная совместимость реализуется за счет кодирования основной стерео информации в соответствии с ГОСТ Р 54711 при использовании полей дополнительных данных аудиофрейма (в этой части стандарта - основной фрейм) плюс дополнительный фрейм расширения для многоканального расширения.

Полный аудиофрейм включает четыре различных типа данных:

- информация заголовка в пределах первых 32 битов аудиофрейма ГОСТ Р 54711;

- контроль ошибок с помощью циклического избыточного кода (CRC), состоящего из 16 битов, следующих сразу после информации заголовка (дополнительная опция);

- аудиоданные, состоящие для Уровня II из информации о распределении битов (BAL), информации о выборе масштабных коэффициентов (SCFSI), масштабных коэффициентов (SCF) и субполосных отсчетов;

- дополнительные данные, которые из-за большого количества различных приложений будут использовать эту часть стандарта, длина и назначение этого поля не определены.

Переменная длина вспомогательного поля данных позволяет поместить полную информацию о расширении каналов в первую часть поля вспомогательного поля. Если кодер МС не использует все поле дополнительных данных для информации о многоканальном расширении, оставшаяся часть этого поля может применяться для других дополнительных данных.

Скорость передачи, необходимая для передачи информации о многоканальном расширении, может меняться от фрейма к фрейму в зависимости от свойства звуковых сигналов. Полная скорость передачи может превышать значения, предусмотренные в настоящем стандарте, из-за использования дополнительных битов расширения. Максимальные скорости передачи, с учетом передачи битов расширения, определяются в соответствии со следующей таблицей:

Частота дискретизации, кГц

Уровень

Максимальная полная скорость передачи, кбит/с

32

I

903

32

II

839

32

III

775

44,1

I

1075

44,1

II

1011

44,1

III

947

48

I

1130

48

II

1066

48

III

1002

В этой части стандарта описываются комбинации основных стереосигналов, Уровней I, II и III и многоканальное расширение Уровня II и Уровня III. Возможны следующие комбинации:

Стерео ,

Многоканальное расширение

Уровень II

Уровень II mc

Уровень III

Уровень III mc

Уровень I

Уровень II mc

4.2.2.2 Формат входного/выходного звукового сигнала

Частоты дискретизации: 48, 44,1 или 32 кГц

Квантование: до 24 битов на ИКМ-отсчет

Следующие комбинации звуковых каналов могут использоваться в качестве входов аудиокодера:

а) конфигурация 3/2 - пять каналов, включая , , плюс два канала окружения , ;

б) конфигурация 3/1 - четыре канала, включая , , плюс один канал окружения ;

в) конфигурация 3/0 - три канала, включая , , без каналов окружения;

г) конфигурация 3/0+2/0 - пять каналов, включая , , первой программы плюс , второй программы;

д) конфигурация 2/2 - четыре канала, включая , плюс два канала окружения , ;

е) конфигурация 2/1 - три канала, включая , с одним каналом окружения ;

ж) конфигурация 2/0 (или 1/0+1/0) - стерео или два независимых канала, как в ГОСТ Р 54711;

и) конфигурация 2/0+2/0 (или 1/0+1/0+2/0) - четыре канала, включая , (или каналы I и II) первой программы плюс , второй программы;

к) конфигурация 1/0 - одноканальный режим, как в ГОСТ Р 54711;

л) конфигурация 1/0+2/0 - три канала, включая одноканальный режим, как в ГОСТ Р 54711 плюс , второй программы.

Различные комбинации входных аудиосигналов кодируются и передаются в пяти доступных каналах передачи , , , и , из которых и являются двумя основными каналами ГОСТ Р 54711 и соответствуют сигналам и . По каналам , и передается многоканальная информация, использующая вспомогательное поле данных ГОСТ Р 54711 и дополнительный поток битов расширения.

После многоканального декодирования возможно восстановление до пяти звуковых каналов, которые затем могут быть представлены в любом удобном формате по выбору слушателей:

а) пять каналов, конфигурация 3/2

фронт - левый () и правый () каналы плюс центральный канал (),

окружение - левый () и правый () каналы окружения;

б) четыре канала, конфигурация 3/1

фронт - левый () и правый () каналы плюс центральный канал (),

окружение - моноканал окружения ();

в) три канала, конфигурация 3/0

фронт - левый () и правый () каналы плюс центральный канал (),

окружение - нет каналов окружения;

г) четыре канала, конфигурация 2/2

фронт - левый () и правый () каналы,

окружение - левый () и правый () каналы окружения;

д) три канала, конфигурация 2/1

фронт - левый () и правый () каналы,

окружение - моноканал окружения ();

е) два канала, конфигурация 2/0

фронт - левый () и правый () каналы,

окружение - нет каналов окружения;

ж) один канал, конфигурация 1/0

фронт - моно (),

окружение - нет каналов окружения.

Канал НЧ может быть дополнительно добавлен к любой из этих конфигураций, за исключением конфигурации 1/0.

Сигналы на выходах должны быть представлены раздельно или объединенными в соответствии с уравнениями преобразования, как определено в [5].

4.2.2.3 Режимы составного кодирования

4.2.2.3.1 Динамическое переключение канала передачи

Для обеспечения лучшей ортогональности между двумя совместными сигналами и и тремя дополнительными сигналами , и , необходимо иметь определенную гибкость при выборе каналов , и . Эта часть настоящего стандарта позволяет, независимо от количества частотных областей, выбрать между несколькими комбинациями трех сигналов из указанных пяти , , , , . Выбранная комбинация будет передана в , и .

4.2.2.3.2 Динамическое перекрестное распределение

Согласно бинауральной модели слуха возможно определить части стереофонического сигнала, которые не важны при пространственном восприятии стереофонического представления. Такие составляющие стереосигнала не маскируются, однако они не влияют на локализацию звуковых источников. Они игнорируются при бинауральном восприятии в слуховой системе человека. Поэтому составляющие любого стереосигнала (, , , или ), не влияющие на локализацию, могут быть воспроизведены через любой громкоговоритель или через несколько громкоговорителей системы, не влияя на стереофоническое восприятие. Это может быть выполнено независимо для различных частотных областей.

4.2.2.3.3 Адаптивное многоканальное предсказание

Для того чтобы использовать для устранения избыточности статистические зависимости между сигналами, в различных каналах применяют адаптивное многоканальное предсказание. Вместо того чтобы передавать непосредственно сами сигналы в каналах передачи , , , передаются соответствующие сигналы ошибки предсказания. Используются предсказывающие устройства вплоть до 2-го порядка с компенсацией задержки.

4.2.2.3.4 Фантомное кодирование центрального канала

Слуховая система человека при локализации на верхних частотах реагирует только на интенсивность звуковых сигналов, вследствие чего можно передавать ВЧ-часть центрального канала во фронтальных левом и правом каналах. При этом образуется фантомный источник звука, расположенный по центру.

4.2.2.4 Параметры кодера и декодера

Кодирование и декодирование:

аналогично ГОСТ Р 54711

Режимы кодирования:

3/2, 3/1, 3/0 (+2/0), 2/2, 2/1, 2/0 (+2/0), 1/0+1/0 (+2/0), 1/0 (+2/0),
вторая стереопрограмма, до 7 дополнительных многоязычных каналов или каналов комментария, связанные службы.

Субполосная фильтрация:

число субполос - 32,

частота дискретизации - Fs/32,

ширина субполос - Fs/64.

Дополнительное МДКП (только Уровень III):

Разрешающая способность по частоте

6 или 18 коэффициентов на субполосу

Канал LFE:

число каналов LFE - 1,

частота дискретизации - Fs/96,

ширина канала LFE - 125 Гц

Динамический диапазон:

более 20 битов.

4.2.3 Спецификация кодированного звукового потока битов

4.2.3.1 Поток битов расширения

Последовательность звукового сигнала состоит из основного потока битов, декодируемого в соответствии с ГОСТ Р 54711, и дополнительного потока битов расширения:

4.2.3.2 Основной фрейм Уровня I

4.2.3.3 Основной фрейм Уровня II

4.2.3.4 Основной фрейм Уровня III

4.2.3.5 Фрейм расширения

4.2.3.6 MPEG-1 заголовок

См. ГОСТ Р 54711, 5.1.3.

4.2.3.7 MPEG-1 проверка на ошибки

См. ГОСТ Р 54711, 5.1.4.

4.2.3.8 MPEG-1 данные звука

См. ГОСТ Р 54711, 5.1.5, 5.1.6 и 5.1.7.

4.2.3.9 MPEG-1 дополнительные данные

Если ext_bit_stream_present = = '1' || layer == 3, то допустим следующий синтаксис:

Если ext_bit_stream_present = = '0' && layer != 3, см. ГОСТ Р 54711, 5.1.8.

4.2.3.10 Ext заголовок

4.2.3.11 Ext дополнительные данные

4.2.3.12 МС расширение

4.2.3.12.1 МС расширение Уровни I и II

4.2.3.12.2 МС расширение Уровень III

4.2.3.12.3 Расположение данных МС Extension

На Уровне I содержимое mc_extension () разделяется на mc_extension_data_part1 (), mc_extension_data_part2 () и mc_extension_data_part3 () с необязательным наличием ext_data (), которые передаются в соответствующем фрейме расширения.

На Уровнях II и III содержимое mc_extension () разделяется на mc_extension_data_part1 () с необязательным наличием ext_data (), которые передаются в соответствующем фрейме расширения. Это может быть представлено следующим образом:

4.2.3.13 МС заголовок

Окончание таблицы

4.2.3.14 МС проверка на ошибки

4.2.3.15 Информация о статусе МС Composite, Уровни I и II

4.2.3.16 Информация о статусе МС Composite, Уровень III

Продолжение таблицы

Окончание таблицы

4.2.3.17 МС данные звука. Уровни I и II

Окончание таблицы

4.2.3.18 ML аудиоданные. Уровни I и II

Окончание таблицы

4.2.3.19 ML аудиоданные. Уровень III

Продолжение таблицы

Окончание таблицы

4.2.3.20 LFE дополнительные данные. Уровень III

4.2.3.21 LFE основные данные звука. Уровень III

4.2.3.22 ML дополнительные данные. Уровень III

Если multi_lingual_fs == 0, но без main_data_begin, private_bits и main_data ().

Если multi_lingual_fs ==1, см. синтаксис audio_data () в ГОСТ Р 54711 и 4.1.2.7 в настоящем стандарте, но без main_data_begin, private_bits и main_data ().

Для использования в качестве ML служебных данных nch устанавливается в no_of_multi_lingual_ch.

4.2.3.23 ML основные аудиоданные. Уровень III

Если multi_lingual_fs == 0, см. синтаксис main_data в ГОСТ Р 54711.

Если multi_lingual_fs == 1, см. синтаксис main_data в 4.1.2.7 настоящего стандарта.

Для использования в качестве ML основных аудиоданных, nch устанавливаются в no_of_multi_ lingual_ch.

4.2.4 Семантика синтаксиса звукового потока битов

4.2.4.1 Общая звуковая последовательность

Часть потока битов base_frame плюс дополнительный ext_frame декодируется на основе информации, содержащейся только в ней самой. Эта часть содержит данные о 1152 звуковых отсчетах каждого кодированного звукового канала, 12 отсчетов для канала LFE и или 1152, или 576 отсчетов каждого многоязычного канала. Данная часть начинается с синхрослова и заканчивается перед третьим по счету следующим синхрословом на Уровне I и перед следующим синхрословом на Уровнях II и III. Эта часть состоит из целого числа слотов (четыре байта на Уровне I, один байт на Уровнях II и III).

Основной фрейм должен содержать или обратносовместимые стерео, или левый и правый каналы в зависимости от данных матрицирования. Основной фрейм начинается с mpeg1_header, mpeg1_error_check, за которыми следуют mpeg1_audio_data, mc_extension_data_part1 и mpeg1_ancillary_data на Уровнях I и II. На Уровне I mc_extension_data_part разделяется на три части: mc_extension_data_part1, mc_extension_data_part2 и mc_extension_data_part3. На Уровне III основной фрейм также начинается c mpeg1_header и mpeg1_error_check, за которыми следуют mpeg1_audio_side_info и mpeg1_main_data. mpeg1_main_data. Первый из них состоит из mpeg1_audio_main_data, mc_extension_data_part1 и mpeg1_ancillary_data.

Если полная скорость передачи превышает скорость передачи base_frame, mc_extension_data_part1 должен включать, по крайней мере, mc_header. Тогда base_frame декодируется на основе информации, содержащейся только в нем самом с помощью декодера ГОСТ Р 54711.

4.2.4.2 Основной фрейм. Уровень I

mpeg1_header - Часть потока битов, содержащая синхронизацию и информацию о состоянии.

mpeg1_error_check - Часть потока битов, содержащая информацию для обнаружения ошибок в MPEG-1 части потока битов.

mpeg1_audio_data - Часть потока битов, содержащая информацию об отсчетах звукового сигнала MPEG-1 части потока битов.

mc_extension_data_part1, mc_extension_data_part2, mc_extension_data_part3 - Эти три части плюс дополнительный ext_data фрейма расширения образуют полное многоканальное поле расширения mc_extension одного аудиофрейма, которое состоит из mc_header, mc_error_check, mc_composite_status_info, mc_audio_data и ml_audio_data.

continuation_bit - Один бит со значением '0' для улучшения синхронизации.

mpeg1_ancillary_data - Часть потока битов, которая может использоваться для служебных данных.

4.2.4.3 Основной фрейм. Уровень II

mpeg1_header-mpeg1_error_check.

mpeg1_audio_data.

mc_extension_data_part1 () - Эта часть плюс дополнительный ext_data фрейма расширения образуют многоканальное поле расширения, которое состоит из mc_header, mc_error_check, mc_composite_status_info, mc_audio_data и ml_audio_data.

mpeg1_ancillary_data.

4.2.4.4 Основной фрейм. Уровень III

mpeg1_header - См. 4.2.4.2

mpeg1_error_check - См. 4.2.4.2

mpeg1_audio_side_info - To же самое, что элемент синтаксиса audio_data () в ГОСТ Р 54711, но без main_data ().

mpeg1_main_data - То же самое, что элемент синтаксиса main_data () в ГОСТ Р 54711. Содержит MPEG - 1 аудиоданные, так же как и MPEG - 2 аудиоданные (многоканальные и многоязычные) и дополнительные данные.

mpeg1_audio_main_data - То же самое, что элемент синтаксиса main_data () в ГОСТ Р 54711, 5.1.7, но без дополнительных данных.

mc_extension_data_part1 - Эта часть плюс дополнительный ext_data фрейма расширения образуют многоканальное поле расширения, которое состоит из mc_header, mc_error_check, mc_composite_status_info, mpeg2_audio_side_info и mpeg2_audio_main_data.

mpeg1_ancillary_data - См.4.2.4.2.

4.2.4.5 Фрейм расширения

ext_header - Часть потока битов расширения, содержащая синхронизацию и информацию о состоянии.

ext_data - Часть многоканального/многоязычного поля в потоке битов, которая содержит те битовы, которые не могут быть переданы в base_frame.

ext_ancillary_data - Часть потока битов расширения, которая может использоваться для того, чтобы передать дополнительные данные для Уровней I и II. Для Уровня III дополнительные данные для многоканального/многоязычного расширения mpeg2_ancillary_data располагаются в mpeg2_audio_main_data независимо от того, используется ли поток битов расширения или нет.

4.2.4.6 MPEG-1 заголовок

См. ГОСТ Р 54711, 5.2.3.

4.2.4.7 MPEG-1 проверка на ошибки

См. ГОСТ Р 54711, 5.2.4.

4.2.4.8 MPEG-1 аудиоданные

См. ГОСТ Р 54711, 5.2.5, 5.2.6 и 5.2.7.

4.2.4.9 MPEG-1 Дополнительные данные

См. ГОСТ Р 54711, 5.2.8.

4.2.4.10 Заголовок расширения

ext_syncword - Строка из 12 битов '0111 1111 1111' для синхронизации основного потока битов и потока битов расширения.

ext_crc_check - Обязательное проверочное слово длиной 16 битов. CRC-проверка начинается с первого бита ext_length поля. Число битов, включенных в проверку CRC, равняется 128 или меньше, если конец ext_data поля достигается ранее.

ext_length - 11-битовое число, указывающее на общее количество байтов фрейма расширения.

ext_ID_bit - Зарезервирован для будущего использования. Должен быть установлен в '0' для фрейма расширения настоящего стандарта.

4.2.4.11 Служебные данные расширения

ext_ancillary_bit - Определяется пользователем. Количество битов служебных данных расширения (no_of_ext_ancillary_bits) равняется ext_length минус количество битов, используемых для ext_header и ext_data.

4.2.4.12 МС расширение

4.2.4.12.1 МС расширение. Уровни I и II

mc_header - Часть потока битов, содержащая синхронизацию и информацию о состоянии для многоканального и многоязычного расширения потока битов.

mc_error_check - Часть потока битов, содержащая информацию для обнаружения ошибок в многоканальной части расширения потока битов.

mc_composite_status_info - Часть потока битов, содержащая информацию о режиме составного кодирования.

mc_audio_data - Часть потока битов, содержащая информацию о звуковых отсчетах многоканальной части расширения потока битов.

ml_audio_data - Часть потока битов, содержащая информацию о звуковых отсчетах части расширения комментария потока битов.

4.2.4.12.2 МС расширение. Уровень III

mpeg2_audio_side_info - Часть потока битов, содержащая информацию, необходимую для декодирования многоканального и многоязычного расширений.

byte_align_bit - Бит, используемый для выравнивания байта mpeg2_audio_main_data.

mpeg2_audio_main_data - Часть потока битов, содержащая информацию о звуковых отсчетах многоканального и многоязычного расширений. К этим данным получают доступ через mc_data_begin в элементе синтаксиса mc_composite_status_info. Из-за переменной природы кодирования методом Хаффмана на Уровне III и методом резервуара битов, mpeg2_audio_main_data для фрейма обычно не следует за mpeg2_audio_side_info того же фрейма. mpeg2_audio_main_data фрейма предшествует mc_header и mpeg2_audio_side_info фрейма при отрицательном смещении, заданном значением mc_data_begin. Число байт, используемых для информации, отличной от mpeg2_audio_main_data, не принимается во внимание, если речь идет о mc_data_begin.

mc_side_info - Часть потока битов, содержащая информацию, необходимую для декодирования широкополосных каналов.

lfe_side_info - Часть потока битов, содержащая информацию, необходимую для декодирования низкочастотного канала.

ml_side_info - Часть потока битов, содержащая информацию, необходимую для декодирования многоязычных каналов.

mc_audio_main_data - Часть потока битов, содержащая информацию о звуковых отсчетах широкополосных каналов.

lfe_audio_main_data - Часть потока битов, содержащая информацию о звуковых отсчетах низкочастотного канала.

ml_audio_main_data - Часть потока битов, содержащая информацию о звуковых отсчетах многоязычных каналов.

mpeg2_ancillary_data - Дополнительные данные многоканальной/многоязычной части расширения. Число дополнительных битов данных I3_mpeg2_ancillary_bits соответствует расстоянию между концом многоканальных/многоязычных данных, после кодирования кодом Хаффмана и расположением в mpeg2_audio_main_data, на который указывает mc_data_begin следующего фрейма.

4.2.4.13 МС заголовок

ext_bit_stream_present - Один бит, показывающий, существует ли поток битов расширения, который содержит остаток от многоканальной и многоязычной аудиоинформации в случае, если информация не помещается в один base_frame;

'0' - поток расширения отсутствует;

'1' - поток расширения присутствует.

Если значение ext_bit_stream_present меняется, возможен сброс декодера. При использовании переменной скорости передачи для потока битов расширения, если требуемое число битов для определенного аудиофрейма укладывается в base_frame, и, следовательно, ext_frame не требуется, ext_frame может состоять только из ext_header во избежание сброса декодера.

n_ad_bytes - Восемь битов, которые образуют целое число без знака, определяющее, сколько байт используется для MPEG-1-совместимого поля служебных данных, если поток битов расширения существует (Уровни I и II) или если используется Уровень III (с потоком или без потока битов расширения).

centre - Два бита, определяющие, используется ли центральный канал и его пропускную способность:

'00' - центральный канал не представлен;

'01 - центральный канал представлен;

'10' - не определено;

'11' - ограниченная пропускная способность центрального канала (фантомное кодирование).

Если пропускная способность центрального канала ограниченна, то субполосы выше 11 не передаются. Декодер должен установить переменную centre_limited [mch] [sb] в значение "истина" для этих субполос, и выделение битов для них должно быть обнулено:

for (sb=0; sb <12; sb++)

centre_limited [centre] [sb] =false;

if (centre == '11'),

for (sb=12; sb <msblimit; sb ++)

centre_limited [centre] [sb] =true;

else

for (sb=12; sb <msblimit; sb ++)

centre_limited [centre] [sb] =false.

Для тех субполос, где centre_limited [mch] [sb] возвращает "истину", могут использоваться только те выделения канала передачи, которые включают центральный сигнал. В случае динамических перекрестных помех, включающих центральный канал, масштабные коэффициенты указанных субполос не передаются.

surround - Два бита, показывающие, содержатся ли каналы окружения в потоке битов mc_ extension:

'00' - нет каналов окружения;

'01' - моноканал окружения;

'10' - стереоканал окружения;

'11' - нет каналов окружения, однако присутствует вторая стереопрограмма.

Ife - один бит, показывающий, присутствует ли канал низкой частоты:

'0' - канал низкой частоты отсутствует;

'1' - канал низкой частоты присутствует.

audio_mix - Один бит, показывающий характер сведения сигнала: для прослушивания в больших помещениях, как театр, или для прослушивания в небольших помещениях, как комната. Этот бит игнорируется декодером, однако может быть использован системой воспроизведения:

'0' - аудиопрограмма сведена для прослушивания в больших помещениях;

'1' - аудиопрограмма сведена для прослушивания в небольших помещениях.

dematrix_procedure

- Два бита, показывающие тип процедуры дематрицирования, которая должна быть применена в декодере. dematrix_procedure влияет на декодирование tc_allocation и процедуру денормализации. Для описания процедур см. 4.5.3.2.1.1 и 4.5.3.2.5:

'00' - процедура 0;

'01' - процедура 1;

'10' - процедура 2;

'11' - процедура 3.

Значение '10' может встречаться только в комбинации с конфигурациями 3/1 или 3/2.

no_of_multi_lingual_ch - Три бита, образующие беззнаковое целое число, соответствующее количеству многоязычных каналов или каналов комментария в потоке битов mc_extension.

multi_lingual_fs - Один бит, показывающий, являются ли частоты дискретизации многоязычного и основных звуковых каналов одинаковыми или нет. Равняется '1', если частота дискретизации многоязычных каналов равна половине частоты дискретизации основных каналов, '0', если обе частоты дискретизации равны.

multi_lingual_layer - Один бит, показывающий, используется ли ml Уровня II или ml Уровня III. На Уровне I всегда используется ml Уровня II:

ГОСТ Р 54711

multi_lingual_layer

Уровень

Уровень I

X

Уровень II ml

Уровень II

'0'

Уровень II ml

Уровень II

'1'

Уровень III ml

Уровень III

'0'

Уровень II ml

Уровень III

'1'

Уровень III ml

copyright_identification_bit - Один бит, являющийся частью 72-разрядного поля идентификации авторского права. Начало поля обозначается битом copyright_identification_start. Поле состоит из 8-разрядного copyright_identifier, сопровождаемого 64-разрядным copyright_number. Идентификатор авторского права дается организацией по защите авторских прав. copyright_number является уникальным значением, которое идентифицирует защищенный авторским правом материал.

copyright_identification_start - Один бит, показывающий, что copyright_identification_bit в этом аудиофрейме является первым битом 72-разрядной идентификации авторского права. Если никакая идентификация авторского права не передается, этот бит должен быть равен '0':

'0' - в аудиофрейме отсутствует начало идентификации авторского права;

'1' - в аудиофрейме присутствует начало идентификации авторского права.

4.2.4.14 МС проверка на ошибки

mc_crc_check - Обязательное 16-разрядное слово для обнаружения ошибок. Также используется для обнаружения наличия многоканальной или многоязычной информации. На Уровнях I и II вычисление начинается с первого бита многоканального заголовка и заканчивается последним битом поля scfsi, исключая само поле mc_crc_check.

На Уровне III вычисление начинается с первого бита многоканального заголовка и заканчивается последним битом ML_header ().

4.2.4.15 МС информация о состоянии. Уровни I, II

tc_sbgr_select - Один бит, указывающий, используется ли tc_allocation для всех субполос или только для отдельных групп субполос. Равен '1', если tc_allocation используется для всех субполос, '0', если tc_allocation используется только для отдельных групп субполос. Следующая таблица показывает соответствие субполос группам субполос sbgr:

sbgr

Субполосы, входящие в группу

0

0

1

1

2

2

3

3

4

4

5

5

6

6

7

7

8

8...9

9

10...11

10

12...15

11

16...31

dyn_cross_on - Один бит, показывающий, используется ли динамическое перекрестное распределение. Равен '1', если динамическое перекрестное распределение используется, в противном случае равен '0'.

mc_prediction_on - Один бит, показывающий, используется ли mc_prediction. Равен '1', если mc_prediction используется, в противном случае равен '0'.

tc_allocation, tc_allocation [sbgr] - Содержит информацию о выделении канала передачи для всех субполос или для субполос в группе субполос sbgr соответственно. всегда содержит, а всегда содержит. В случае, когда dematrix_procedure равно '11', подразумевается, что tc_allocation [sbgr]' == 0. Если используется фантомное кодирование (centre == '11'), центральный канал групп субполос содержится в дополнительных каналах передачи, так что для этих групп субполос значение tc_allocation должно быть ограничено следующим образом:

0, 3, 4, 5 - в режиме 3/2;

0, 3, 4 - в режиме 3/1;

0 - в режимах 3/0 и 3/0+2/0.

1. Конфигурация 3/2 (nmch == 3, длина поля tc_allocation 3 бита):

tc_allocation

0

1

2

3

4

5

6

7

2. Конфигурация 3/1 (nmch == 2, длина поля tc_allocation 3 бита):

tc_allocation

0

1

2

3

4

5

{возможно только при dematrix_procedure == '10'}

3. Конфигурация 3/0 (+2/0) (nmch ==1 в режиме 3/0, nmch ==3 в режиме 3/0+2/0, длина поля tc_allocation 2 бита):

tc_allocation

0

1

2

При наличии второй стереопрограммы содержит , а содержит второй стереопрограммы.

4. Конфигурация 2/2 (nmch == 2, длина поля tc_allocation 2 бита):

tc_allocation

0

1

2

3

5. Конфигурация 2/1 (nmch == 1, длина поля tc_allocation 2 бита):

Выделение tc

0

1

2

6. Конфигурация 2/0 (+2/0) (nmch == 0 в режиме 2/0, nmch == 2 в режиме 2/0+2/0, длина поля tc_allocation 0 битов):

При наличии второй стереопрограммы содержит , а содержит второй стереопрограммы.

7. Конфигурация 1/0 (+2/0) (nmch == 0 в режиме 1/0, nmch == 2 в режиме 1/0+2/0, длина поля tc_allocation 0 битов).

При наличии второй стереопрограммы содержит , а содержит второй стереопрограммы.

dyn_cross_LR - Один бит, показывающий, будут ли и/или скопированы из (dyn_cross_LR == '0') или из (dyn_cross_LR == '1').

dyn_cross_mode [sbgr] - От одного до четырех битов, показывающие, между какими каналами передачи активно динамическое перекрестное распределение для субполос в группе субполос sbgr. Для этих субполос информация о распределении битов и субполосные отсчеты отсутствуют в потоке битов. Число битов этого поля зависит от конфигурации каналов, которая может быть 3/2 (), 3/1 (), 3/0 (), 2/2 () или 2/1 (). Следующие таблицы дают оставшиеся каналы передачи для всех режимов. Если канал передачи отсутствует (обозначен '-' в таблицах), переквантованные, но еще не масштабируемые субполосные отсчеты соответствующего звукового канала должны быть скопированы согласно следующим правилам:

если существует в той же самой строке таблицы, субполосные отсчеты канала передачи должны быть скопированы из канала передачи ;

если существует в той же самой строке таблицы, субполосные отсчеты каналов передачи и должны быть скопированы из канала передачи ;

для остальных случаев:

- и должны быть скопированы из ,

- и должны быть скопированы из ,

- и должны быть скопированы из, если dyn_cross_LR == '0', или из , если dyn_cross_LR == '1'.

Первоначально для всех субполос всех каналов передачи переменная dyn_cross [Тх] [sb] должна быть установлена в "ложь". Затем для субполос каналов передачи, для которых не передаются информация о распределении битов и отсчеты, переменная dyn_cross [mch] [sb] должна быть установлена в "истину":

for (sb = Iim1; sb <= Iim2; sb ++) dyn_cross [Tx] [sb] = true,

где lim1 и Iim2 - границы групп субполос.

Распределение битов для субполос со значением dyn_cross [Тх] [sb], равным "истина", должно быть скопировано из соответствующего канала передачи. Если было выделено 0 битов, информация о выборе масштабных коэффициентов и масштабные коэффициенты не передаются.

1. Конфигурация 3/2 (длина поля 'dyn_cross_mode' 4 бита):

dyn_cross_mode[sbgr]

Канал передачи

Комментарии

'0000'

{динамическое перекрестное распределение не используется}

'0001'

-

'0010'

-

'0011'

-

'0100'

-

'0101'

-

-

'0110'

-

-

'0111'

-

-

-

'1000'

-

Нет предсказания для

'1001'

-

Нет предсказания для

'1010'

-

Нет предсказания для

'1011'

-

Нет предсказания

'1100'

-

Нет предсказания

'1101'

-

-

Нет предсказания

'1110'

-

Нет предсказания

'1111'

Запрещено

2. Конфигурация 3/1 (длина поля 'dyn_cross_mode' 3 бита):

dyn_cross_mode[sbgr]

Канал передачи

Комментарии

'000'

{динамическое перекрестное распределение не используется}

'001'

-

'010'

-

'011'

-

-

'100'

-

Нет предсказания

'101'

Запрещено

'110'

Запрещено

'111'

Запрещено

3. Конфигурация 3/0 (+2/0) (длина поля 'dyn_cross_mode' 1 бит):

dyn_cross_mode[sbgr]

Канал передачи

Комментарии

'0'

{динамическое перекрестное распределение не используется}

'1'

-

4. Конфигурация 2/2 (длина поля 'dyn_cross_mode' 3 бита):

dyn_cross_mode[sbgr]

Канал передачи

Комментарии

'000'

{динамическое перекрестное распределение не используется}

'001'

-

'010'

-

'011'

-

-

'100'

-

Нет предсказания

'101'

Запрещено

'110'

Запрещено

'111'

Запрещено

5. Конфигурация 2/1 (длина поля 'dyn_cross_mode' 1 бит):

dyn_cross_mode[sbgr]

Канал передачи

Комментарии

'0'

{динамическое перекрестное распределение не используется}

'1'

-

6. Конфигурация 2/0 (+2/0) (длина поля 'dyn_cross_mode' 0 бит).

7. Конфигурация 1/0 (+2/0) (длина поля 'dyn_cross_mode' 0 бит).

dyn_second_stereo [sbgr] - Один бит, показывающий, используется ли динамическое перекрестное распределение во второй стереопрограмме. Равен '0', если динамическое перекрестное распределение не используется. Если бит равен '1', то субполосные отсчеты (канал передачи в конфигурации 2/0+2/0, 4 в конфигурации 3/0+2/0) копируются из (канал передачи в конфигурации 2/0+2/0, в конфигурации 3/0+2/0).

mc_prediction [sbgr] - Один бит, показывающий, используется ли многоканальное устранение избыточности путем предсказания в группе субполос sbgr. Использование mc_prediction ограничивается группами субполос от 0 до 7. Равен '1', если устранение избыточности используется, '0', если устранение избыточности не используется.

predsi [sbgr] [рх] - Информация о выборе предсказывающего устройства. Показывает, используется ли предсказывающее устройство рх в группе субполос sbgr, и если да, сколько коэффициентов передается:

'00'

Предсказывающее устройство не используется

'01'

Передается один коэффициент

'10'

Передаются два коэффициента

'11'

Передаются три коэффициента

Максимальное количество используемых предсказывающих устройств npred зависит от динамических перекрестных помех (dyn_cross_mode). Значения npred следующие:

Конфигурация

Динамическое перекрестное распределение

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

3/2

6

4

4

4

2

2

2

0

2

2

2

0

0

0

0

-

3/1

4

2

2

0

0

-

-

-

3/0

2

0

2/2

4

2

2

0

0

-

-

-

2/1

2

0

4.2.4.16 МС информация о состоянии. Уровень III

mc_data_begin - Одиннадцать битов, определяющих отрицательное смещение в байтах относительно первого байта фактического фрейма. Число байт, относящихся к MPEG 1 части фрейма mc_header, mc_error_check и mc_composite_status_info, не принимается во внимание. Это означает, что если mc_data_begin == 0, то mc_main_data начинается после последнего byte_aligned_bit.

seg_list_present [gr] [ch] - Передается, только если канал отмечен как существующий в mc_header (). Если seg_list_present не отмечен (что допустимо только для максимум двух каналов), соответствующий канал восстанавливается дематрицированием левого/правого объединенных и переданных каналов.

seg_list_nodef [gr] [ch] - Показывает, передается ли список сегментов или используется список по умолчанию. Список сегментов по умолчанию показывает, что канал передается полностью в указанном канале.

segment_list_repeat [ch] - Показывает, идентичен ли список сегментов второй гранулы списку сегментов первой. Эта переменная передается, если список сегментов первой гранулы не равен списку по умолчанию.

tc_present [gr] [ch] - Показывает, представлен ли передаваемый канал tc в потоке битов. Различие между seg_list_present и tc_present заключается в том, что количество переданных каналов может быть меньше, чем количество выходных каналов, даже если учитывать каналы, восстанавливаемые дематрицированием. Канал, для которого имеется список сегментов, но отсутствует соответствующий tc, должен быть восстановлен через intensity stereo. Канал, для которого существует tc_present, может быть использован в tc_select. tc_present == '1' означает, что канал присутствует. Для звуковых каналов, которые отмечены в mc_header () как несуществующие, принимается tc_present == '0'.

ch_present [ch] - Функция, показывающая, присутствует ли звуковой канал ch в соответствии с mc_header().

block_type [gr] [ch] - Указывает на тип окна для гранулы/канала (см. описание банка фильтров, Уровень III):

block_type [gr]

Тип окна

'00'

Обычный блок

'01'

Стартовый блок

'10'

3 коротких окна

'11'

Конечный блок

block_type - дает информацию об объединении значений в блок и о длине и количестве преобразований (см. блок-схему на рисунке 4 приложения В для аналитического описания). Полифазный банк фильтров описывается в ГОСТ Р 54711, 5.3.6.

При использовании длинных блоков {block_type != '10'), ОМДКП образует 36 значений для каждых 18 входных значений. Выходные значения берутся в окно в соответствии с block_type, и первая половина значений перекрывается со второй половиной предыдущего блока. Получающийся вектор значений поступает на вход одной из полос полифазного банка фильтров синтеза.

При использовании коротких блоков (block_type =='10') выполняются три преобразования, образуя 12 выходных значений каждое. Эти три вектора значений берутся в окно и перекрываются. Дополнение шестью нулями обоих концов результирующего вектора дает вектор длиной 36, который обрабатывается как выход длинного преобразования.

Если block_type ! = '00', ряд других переменных устанавливается по умолчанию:

region0_count = 7 (в случае block_type == '01' или block_type == '11'),

region0_count = 8 (в случае block_type == '10'),

region1_count = 36. Таким образом, все оставшиеся значения в области big_value содержатся в области 1.

dematrix_length - Количество scalefactorband_groups, где дематрицируемые каналы передаются. Для первых dematrix_length scalefactorband_groups не передается joint sereo информация (tc_selecf). Если dematrix_length == '0000', каналы, которые будут восстановлены дематрицированием, определяются из seg_list_present.

dematrix_select [sbgr] - Информация для первых dematrix_length scalefactorband_groups. Показывает, какой из выходных каналов должен быть восстановлен дематрицированием с использованием формулы совместной матрицы. Следующая таблица показывает соответствие передаваемого значения в demathx_select каналам, которые должны быть восстановлены путем дематрицирования. означает, что этот канал восстанавливается дематрицированием, '0' означает, что для указанного канала дематрицирование не используется.

Конфигурации 3/2, 3/1 и 2/2 (4 бита)

dematrix_select

Допустимо в 3/2

Допустимо в 3/1

Допустимо в 2/2

'0000'

0

0

0

0

0

'0001'

0

0

0

0

'0010'

0

0

0

0

'0011'

0

0

0

'0100'

0

0

0

0

'0101'

0

0

0

'0110'

0

0

0

'0111'

0

0

0

0

'1000'

0

0

0

'1001'

0

0

0

'1010'

0

0

0

0

'1011'

0

0

0

'1100'

0

0

0

'1101'

0

0

0

'1110'

0

0

0

'1111'

-

-

-

-

-

Конфигурации 3/0 и 2/1 (3 бита)

dematrix_select

Допустимо в 3/0

Допустимо в 2/1

'000'

0

0

0

'001'

0

0

'010'

0

'011'

0

0

'100'

0

'101'

0

'110'

-

-

-

'111'

-

-

-

scalefactorband_group - Для передачи dematrix_length и списка сегментов scalefactorbands группируются. Следующие две таблицы показывают группировку для длинных блоков (block_type == '00', '01', '11') и коротких блоков (block_type == '10'). Для коротких блоков scalefactorband_group включает соответствующие значения всех трех подблоков.

Ширина и начало каждого scalefactorband_group (sbgr) в scalefactorbands:

sbgr #

Длинные блоки
(block_type == '00', '01', '11')

Короткий блок
(block_type == '10')

ширина sbgr

начало sbgr

ширина sbgr

начало sbgr

0

3

0

1

0

1

3

3

1

1

2

3

6

1

2

3

1

9

1

3

4

1

10

1

4

5

1

11

1

5

6

1

12

1

6

7

1

13

1

7

8

1

14

1

8

9

1

15

1

9

10

1

16

1

10

11

1

17

2

11

12

1

18

-

13

13

1

19

-

-

14

2

20

-

-

15

-

22

-

-

attenuation_range [gr] [ch] - Для аттенюации списка сегментов отведено четыре различных диапазона. Следующая таблица показывает диапазоны аттенюации:

Диапазон аттенюации

Число битов для аттенюации

0

2

1

3

2

4

3

5

attenuation_scale [gr] [ch] - Определяет размер шага аттенюации. Для attenuation_scale ==0, размер шага равен 1/. Для attenuation_scale == 1 размер шага равен 1/.

seg_length [gr] [ch] [seg] - Номера scalefactorband_groups, которые умножаются с аттенюацией от tc_select и копируются в канал (ch). Seg_length == 0 немедленно прекращает передачу tc_select и аттенюацию. Невыбранные scalefactorband_groups обнуляются.

tc_select [gr] [ch] [seg] - Номер передаваемого канала, который является источником для обработки списков сегментов. Если tc_select ==7 это означает, что в этом сегменте используется и восстановление путем дематрицирования.

attenuation [gr] [ch] [seg] [sbgr] - Для каждой scalefactorband_group передается одно значение аттенюации для составления канала. Ширина аттенюации может меняться в диапазоне от 2 до 5 битов. Это обозначается как attenuation_range. Размер шага аттенюации определяется attenuation_scale и может меняться между и . Если tc_select == 7, это означает, что используется дематрицирование канала без передачи аттенюаций.

Если tc_select == ch, это означает, что передаваемый канал является выбранным каналом и аттенюации не передаются.

mc_prediction_on - Один бит, показывающий, используется ли mc_prediction. Равен '1', если mc_prediction используется, '0' - в противном случае.

mc_prediction [sbgr] - Один бит, показывающий, используется ли устранение многоканальной избыточности путем предсказания в группе субполос sbgr. Равен '1', если устранение избыточности используется, '0' - в противном случае.

predsi [sbgr] [pci] - Информация о выборе предсказывающего устройства. Показывает, передается ли коэффициент предсказывающего устройства pci в группе субполос sbgr. Равен '1', если коэффициент передается, '0' - в противном случае.

pred_coef [sbgr] [pci] - Фактический коэффициент предсказания, используемый для субполос в группе субполос sbgr и индекса pci.

4.2.4.17 МС звуковые данные. Уровни I и II

lfe_allocation - Содержит информацию о квантователе, используемом для отсчетов канала низкой частоты. Четыре бита этого поля образуют беззнаковое целое, используемое в качестве индекса в следующей таблице, которая дает количество битов на отсчет и количество уровней квантования. Таким образом, lfe_allocation показывает количество битов для кодирования отсчетов канала низкой частоты. Следующая таблица допустима для всех частот дискретизации:

Ife_allocation

Биты на отсчет

Число уровней

0

0

-

1

2

3

2

3

7

3

4

15

4

5

31

5

6

63

6

7

127

7

8

255

8

9

511

9

10

1023

10

11

2047

11

12

4095

12

13

8191

13

14

16383

14

15

32767

15

16

65535

allocation [mch] [sb] - Содержит информацию о квантователе, используемом для отсчетов субполосы sb канала расширения mch. Существование этого поля для определенной субполосы и канала зависит от composite_status_info. Биты этого поля образуют беззнаковое целое, используемое в качестве индекса в соответствующей таблице (таблица Б.2 ГОСТ Р 54711, которая дает количество уровней квантования). Если Fs равна 48 кГц, используется таблица Б.2а, если Fs равна 44,1 кГц или 32 кГц, используется таблица Б.2б, независимо от скорости передачи. Значение msblimit должно быть установлено в sblimit соответствующей таблицы.

scfsi [mch] [sb] - Информация о выборе масштабных коэффициентов, показывающая количество масштабных коэффициентов, передаваемых для субполосы sb канала расширения mch. Аудиофрейм делится на три равных части по 12 отсчетов в каждой субполосе:

'00' - передаются три масштабных коэффициента, для частей 0, 1, 2 соответственно;

'01' - передаются два масштабных коэффициента, первый - для частей 0 и 1, второй - для части 2;

'10' - передается один масштабный коэффициент, допустимый для всех трех частей;

'11' - передаются два масштабных коэффициента, первый - для части 0, второй - для частей 1 и 2.

delay_comp [sbgr] [рх] - Три бита, определяющие сдвиг 0, 1, 2..., 7 субполосных отсчетов для компенсации задержки в группе субполос sbgr и предсказывающем устройстве рх.

pred_coef [sbgr] [рх] [pci] - Фактический коэффициент предсказывающего устройства вплоть до второго порядка в группе субполос sbgr и предсказывающем устройстве рх.

lf_scalefactor - Указывает на множитель для повторно квантованных отсчетов канала низкой частоты. Шесть битов образуют беззнаковое целое, являющееся индексом в таблице В.1 ГОСТ Р 54711.

scalefactor [mch] [sb] [р] - Указывает на множитель для повторно квантованных отсчетов субполосы sb части р аудиофрейма канала расширения mch. Шесть битов образуют беззнаковое целое, являющееся индексом в таблице Б.1 ГОСТ Р 54711.

If_sample [gr] - Кодированный отсчет гранулы gr канала низкой частоты.

samplecode [mch] [сурьма] [gr] - Кодированные значения трех последовательных отсчетов гранулы gr субполосы sb канала расширения mch.

sample [mch] [sb] [s] - Кодированный отсчет s субполосы sb канала расширения mch.

4.2.4.18 ML звуковые данные. Уровни I и II

allocation [mlch] [sb] - Содержит информацию о квантователе, используемом для отсчетов субполосы sb канала расширения mlch. Биты этого поля образуют беззнаковое целое, используемое в качестве индекса в соответствующей таблице (таблица Б.2 ГОСТ Р 54711), которая дает количество уровней квантования. Если Fs равна 48 кГц, используется таблица Б.2а, если Fs равна 44,1 кГц или 32 кГц, используется таблица Б.2б, независимо от скорости передачи. Если для многоязычных каналов используется вдвое меньшее значение частоты дискретизации (multi_lingual_fs =='1'), то должна использоваться таблица Б.1 этой части настоящего стандарта. Значение mlsblimit должно быть установлено в sblimit соответствующей таблицы.

scfsi [mlch] [sb] - Информация о выборе масштабных коэффициентов, показывающая количество масштабных коэффициентов, передаваемых для субполосы sb канала расширения mlch. Аудиофрейм делится на три равных части по 12 (если multi_lingual_fs == '0', основная частота дискретизации) или 6 (если multi_lingual_fs == '1', вдвое меньшая частота дискретизации) отсчетов в каждой субполосе:

'00' - передаются три масштабных коэффициента для частей 0, 1, 2 соответственно;

'01' - передаются два масштабных коэффициента, первый - для частей 0 и 1, второй - для части 2;

'10' - передается один масштабный коэффициент, допустимый для всех трех частей;

'11' - передаются два масштабных коэффициента, первый - для части 0, второй - для частей 1 и 2.

scalefactor [mlch] [sb] [р] - Указывает на множитель для повторно квантованных отсчетов субполосы sb части р аудиофрейма канала расширения mlch. Шесть битов образуют беззнаковое целое, являющееся индексом в таблице Б.1 ГОСТ Р 54711.

samplecode [mlch] [sb] [gr] - Кодированные значения трех последовательных отсчетов гранулы gr субполосы sb канала расширения mch. Число гранул ngr равняется 12, если multi_lingual_fs =='0' (основная частота дискретизации) и равняется 6, если multi_lingual_fs == '1' (вдвое меньшая частота дискретизации).

sample [mlch] [sb] [s] - Кодированный отсчет s субполосы sb канала расширения mlch.

4.2.4.19 МС звуковые данные. Уровень III

data_present [gr] [tc] [sfb] - Карта, описывающая, какие данные (в зависимости от гранулы, переданного канала и scalefactorband) фактически передаются. Эта карта не передается, но восстанавливается в декодере путем определения scalefactorbands, на которые ссылаются dematrix_select или segment_lists.

js_carrier [gr] [tc] [sbgr] - Карта, описывающая, какие scalefactorband_group данные (в зависимости от гранулы, переданного канала и scalefactorband_group) используются в качестве транспорта для передачи joint stereo. Эта карта не передается, но восстанавливается в декодере путем определения scalefactorband_groups, на которые ссылается tc_select! = ch.

matrix_attenuation_present - Обозначает, передается ли matrix_attenuation. matrix_attenuation_present равен '1', если matrix_attenuation передается.

matrix_attenuation_l/r [gr] [ch] [sbgr] - В случае кодирования joint stereo, корректирующие значения необходимы, чтобы обеспечить сохранение энергии в объединенных смешанных сигналах и . В декодере аттенюация применяется для получения корректного дематрицирования.

Фактические коэффициенты аттенюации вычисляются как:

attenuation = 1/( ** matrix_attenuation_l/r)

Для процедуры дематрицирования с использованием () используется matrix_attenuation_l (matrix_attenuation_r). Модификация операции дематрицирования описывается в процессе декодирования.

scfsi [tc] [scfsi_band] - На Уровне III информация о выборе масштабных коэффициентов используется так же, как на Уровне II. Основным различием является использование переменной scfsi_band для применения scfsi к группам масштабных коэффициентов вместо единственного масштабного коэффициента.

Использование масштабных коэффициентов для гранул определяет scfsi. Информация о выборе масштабных коэффициентов передается, только если канал передается в обеих гранулах. Другие обнуляются:

scfsi[scfsi_band]

Масштабные коэффициенты

'0'

Масштабные коэффициенты передаются для каждой гранулы

'1'

Масштабные коэффициенты для гранулы 0 также допустимы для гранулы 1

Если включены короткие окна, то есть block_type =='10' для одной из гранул, то scfsi всегда '0' для этого фрейма.

scfsi_band - Управляет использованием информации о выборе масштабных коэффициентов для групп масштабных коэффициентов (scfsi_bands):

scfsi_band

Полосы масштабных коэффициентов

0

0, 1, 2, 3, 4, 5

1

6, 7, 8, 9, 10

2

11...15

3

16...20

part2_3_length [gr] [tc] - Содержит число main_data битов, используемых для кодов Хаффмана и масштабных коэффициентов.

big_values [gr] [tc] - Спектральные значения каждой гранулы кодируются с использованием различных таблиц Хаффмана. Весь частотный диапазон от нуля до частоты Найквиста делится на несколько областей, которые затем кодируются при помощи различных таблиц. Разделение на области выполняется в соответствии с максимумами квантованных значений, с учетом того, что значения на верхних частотах, как ожидается, будут иметь небольшие амплитуды или вообще не будут кодироваться. Начиная с верхних частот, подсчитывается количество пар квантованных значений, равных нулю. Это число называют rzero. Затем подсчитывается количество четверок квантованных значений с абсолютным значением, не превышающим 1 (то есть требующих только три возможных уровня квантования). Это число называют count1. В результате получается четное число. Наконец, число пар значений в нижней области спектра, вблизи нуля оси частот, называется big_values. Максимальное абсолютное значение в этом диапазоне равно 8191. На следующем рисунке показано описываемое разделение:

global_gain [gr] [tc] - Информация о размере шага квантования передается в global_gain. Используется логарифмическое квантование. Об использовании global_gain см. формулу в ГОСТ Р 54711, 5.3.4.7, "Формула для переквантования и масштабирования".

scalefac_compress [gr] [tc] - Определяет число битов, используемых для передачи масштабных коэффициентов согласно следующей таблице:

при block_type '00', '01', '11'

slen1 - размер масштабных коэффициентов для полос 0-10,

slen2 - размер масштабных коэффициентов для полос 11-20;

при block_type '10'

slen1 - размер масштабных коэффициентов для полос 0-5,

slen2 - размер масштабных коэффициентов для полос 6-11:

scalefac_comoress[gr]

slen1

slen2

'0000'

0

0

'0001'

0

1

'0010'

0

2

'0011'

0

3

'0100'

3

0

'0101'

1

1

'0110'

1

2

'0111'

1

3

'1000'

2

1

'1001'

2

2

'1010'

2

3

'1011'

3

1

'1100'

3

2

'1101'

3

3

'1110'

4

2

'1111'

4

3

table_select [gr] [tc] [region] - Различные кодовые таблицы Хаффмана используются в зависимости от максимального квантованного значения и локальной статистики сигнала.

subblock_gain [gr] [tc] [window] - Указывает изменение усиления (квантование с коэффициентом 4) текущего субблока по отношению к глобальному усилению одного субблока. Используется только с типом блока 2 (короткие окна). Значения субблока должны быть разделены в декодере на 4 (subblock_gain [window]).

region0_count [gr] [tc] - Дальнейшее разделение спектра используется, чтобы улучшить производительность кодера Хаффмана. Делению подлежит область big_values. Цель этого деления состоит в том, чтобы получить лучшую устойчивость к ошибкам и лучшую эффективность кодирования. Используются три области - 0, 1 и 2. Каждая область кодируется с помощью отдельной таблицы Хаффмана в зависимости от максимального квантованного значения и статистических свойствах сигнала.

Значения region0_count и regionl_count используются для указания на границы областей. Границы области выравниваются по полосам масштабных коэффициентов.

Поле region0_count содержит значение на единицу меньшее, чем количество полос масштабных коэффициентов в области 0. В случае коротких блоков каждая полоса масштабирующего коэффициента считается три раза, по разу на каждое короткое окно, так что region0_count равное, 8 указывает, что область 1 начинается с полосы номер 3.

Если block_type =='10', общее количество полос масштабных коэффициентов для гранулы равно 12*3=36. Если block_type! == '10', количество полос масштабных коэффициентов равно 21.

region1_count [gr] [tc] - На единицу меньше числа полос масштабных коэффициентов в области 1. Если block_type == '10', то полосы масштабных коэффициентов, представляющие различные временные интервалы, считаются отдельно.

preflag [gr] [tc] - Флаг дополнительного усиления ВЧ квантованных значений. Если preflag установлен, значения таблицы добавляются к масштабным коэффициентам. Это эквивалентно умножению повторно квантованных масштабных коэффициентов на табличные значения. Если block_type =='10' (короткие блоки), preflag не используется.

scalefac_scale [gr] [tc] - Масштабные коэффициенты логарифмически квантуются с размером шага 2 или в зависимости от scalefac_scale. В следующей таблице даны множители масштабных коэффициентов, используемые в уравнении квантования для каждого шага:

scalefac_scale[gr]

scalefac_multiplier

'0'

0,5

'1'

1

count1table_select [gr] [tc] - Этот флаг определяет использование одной из двух возможных таблиц Хаффмана для области тетрад квантованных значений с величиной, не превышающей 1:

count1table_select[gr]

Комментарии

'0'

ГОСТ Р 54711, таблица Б.7 - А

'1'

ГОСТ Р 54711, таблица Б.7 - Б

scalefac_I [gr] [tc] [sfb], scalefac_s [gr] [tc] [sfb] [window], is_pos [sfb] - Масштабные коэффициенты используются, чтобы окрасить шумы квантования. Правильная окраска шумов квантования позволяет полностью их маскировать. В отличие от Уровней I и II, на Уровне III масштабные коэффициенты не несут информации о локальных максимумах квантованного сигнала. На Уровне III масштабные коэффициенты используются в декодере, чтобы получить коэффициенты, на которые будут разделены группы значений. В случае Уровня III, группы расширяются на несколько спектральных линий. Эти группы называют полосами масштабных коэффициентов, и они выбираются так, чтобы приблизить критические полосы настолько близко, насколько возможно.

Из таблицы scalefac_compress видно, что масштабные коэффициенты 0...10 находятся в диапазоне от 0 до 15 (максимальная длина 4 бита) и масштабные коэффициенты 11...21 - в диапазоне от 0 до 7 (максимальная длина 3 бита).

Разделение спектра на полосы масштабных коэффициентов фиксировано для каждой возможной длины блока и частоты дискретизации и сохранено в таблицах, в кодере и декодере (см. ГОСТ Р 54711, таблица Б.8). Масштабным коэффициентом для спектральных линий выше самой высокой линии в таблицах является нуль, то есть фактический коэффициент равен 1,0.

Значения масштабных коэффициентов квантуются логарифмически. Шаг квантования устанавливается в scalefac_scale.

Масштабные коэффициенты полос, которые не выбраны каналом передачи, не передаются. Это означает, что масштабные коэффициенты будут упакованы вместе для передачи и должны быть распакованы для декодирования или дематрицирования.

huffmancodebits () - Данные, закодированные с помощью кода Хаффмана.

Синтаксис huffmancodebits() показывает, как кодируются квантованные значения. В пределах участка big_values пары квантованных значений с абсолютным значением меньше 15 кодируются напрямую с использованием кодов Хаффмана. Коды выбираются из таблиц Хаффмана с 0 по 31 в ГОСТ Р 54711, таблица Б.7. Всегда кодируются пары значений (х, у). Если квантованные значения имеют амплитуду больше или равно 15, то они кодируются отдельно. Если одно или оба значения пары отличны от нуля, один или два знаковых бита должны быть добавлены к кодовой комбинации.

Таблицы Хаффмана для big_values раздела состоят из трех параметров:

hcod [|x|] [|y|] - элемент таблицы значений кода Хаффмана для значений х, у;

hlen [|х|] [|у|] - элемент таблицы длин кода Хаффмана для значений х, у;

linbits - длина linbitsx или linbitsy, если они кодируются.

Синтаксис для huffmancodebits содержит следующие поля и параметры:

signv - знак v (0, если положительный, 1, если отрицательный);

signw - знак w (0, если положительный, 1, если отрицательный);

signx - знак x (0, если положительный, 1, если отрицательный);

signy - знак у (0, если положительный, 1, если отрицательный);

linbilsx - используется, чтобы закодировать значение х, большее или равное 15. Это поле кодируется, только если |х| в hcod равен 15. Если linbits равно нулю, то есть никакие биты не были фактически кодированы, когда |х|==15, то значение linbitsx приравнивается нулю;

linbitsy - то же самое, что и linbitsx, но для у;

is [1] - квантованное значение спектральной линии номер 1.

Поля linbitsx или linbitsy используются только при кодировании значений больших или равных 15. Эти поля интерпретируются как целые числа без знака и добавляются к 15, чтобы получить кодированное значение. Поля linbitsx и linbitsy никогда не используются, если выбрана таблица для блоков с максимальным квантованным значением меньшим 15. Следует обратить внимание, что значение 15 все еще может быть закодировано таблицей Хаффмана, для которой linbits является нулем. В этом случае поля linbitsx или linbitsy не кодируются, так как linbits является нулем.

В пределах раздела countl кодируются четверки значений с амплитудой, меньшей или равной единице. Значения кодируются с использованием кодов Хаффмана. Снова для каждого ненулевого значения добавляется битов знака после символа кода Хаффмана.

Таблицы Хаффмана для раздела countl состоят из следующих параметров:

hcod [|v|] [|w|] [|х|] [|у|] - элемент таблицы значений кода Хаффмана для значений v, w, х, у;

hlen [|v|] [|w|] [|x|] [|y|] - элемент таблицы длин кода Хаффмана для значений v, w, х, у.

Таблица кода Хаффмана Б не является настоящим 4-мерным кодом, потому что она создается из тривиального кода: 0 кодируется с 1, и 1 кодируется с 0.

Квантованные значения выше раздела countl являются нулями, таким образом, они не кодируются.

Для ясности, параметр countl используется здесь для указания на число кодов Хаффмана в countl области. Однако, в отличие от раздела bigvalues, число значений в разделе countl не кодируется явным образом. Конец раздела countl известен только, когда все битовы гранулы (определяемые part2_3_length) были исчерпаны и значение countl становится точно известным после декодирования области countl.

Порядок следования данных кода Хаффмана зависит от block_type гранулы. Если block_type равен '00', '01' или '11', данные кода Хаффмана упорядочиваются по нарастанию частоты.

Если block_type =='10' (короткие блоки), данные Хаффмана организуются в том же самом порядке, что и значения масштабных коэффициентов для гранулы. Данные Хаффмана даются для последовательных полос масштабных коэффициентов, начиная с полосы 0. В пределах каждой полосы данные соответствуют последовательным временным окнам, начиная с окна 0 и заканчивая окном 2. В пределах каждого окна квантованные значения располагаются в порядке увеличения частоты.

4.2.4.20 LFE дополнительные данные. Уровень III

lfe_table_select - Определяет таблицу кода Хаффмана, которая используется для декодирования спектральных значений канала низкой частоты. Аналогично table_select.

Ife_hc_len - Определяет полную длину кодированных с помощью кода Хаффмана спектральных значений канала низкой частоты для обеих гранул.

Ife_gain - Определяет размер шага квантователя канала низкой частоты. Аналогично global_gain.

4.2.4.21 LFE основные звуковые данные. Уровень III

lfe_audio_main_data () - Содержит кодированные с помощью кода Хаффмана спектральные значения канала низкой частоты для обеих гранул. Структура lfe_main_data () аналогична структуре huffmancodebits(), состоящей только из big_values и zero_values. Так же как count1 в huffmancodebits(), количество кодов Хаффмана в lfe_main_data () (то есть lfe_bigval) не передается явным образом. Вместо этого, восстановление происходит в декодере Хаффмана до тех пор, пока не будут исчерпаны все биты, обозначенные в lfe_hc_len. В отличие от структуры huffmancodebits(), декодируемые значения х и у обозначают значения спектральных коэффициентов для гранул 0 и 1 соответственно.

4.2.4.22 ML дополнительные данные. Уровень III

Если multi_lingual_fs == 0, исключая main_data_begin, private_bits и main_data().

Если multi_lingual_fs == 1, исключая main_data_begin, private_bits и main_data().

4.2.4.23 ML звуковые данные. Уровень III

См. ГОСТ Р 54711, 5.2.7 или раздел 4.1.2.7 настоящего стандарта, в зависимости от multi_lingual_fs.

4.2.5 Процесс декодирования звуковых сигналов

4.2.5.1 Основные положения

Общий процесс декодирования схож с процессом, описанным в ГОСТ Р 54711. Он включает декодирование информации о распределении битов, декодирование информации о выборе масштабных коэффициентов, декодирование масштабных коэффициентов, переквантование субполосных отсчетов в случае Уровней I или II, и декодирование служебной информации, декодирование масштабных коэффициентов, декодирование Хаффмана, переквантование, переупорядочение, банк фильтров синтеза и устранение элайзинга в случае Уровня III.

Сначала осуществляется декодирование обратносовместимого сигнала , в соответствии с ГОСТ Р 54711. Предполагается, что поле дополнительных данных MPEG-1 содержит кодированное многоканальное расширение. Если обязательная проверка CRC приведет к допустимому результату, то будет запущен режим многоканального декодирования. Только каждый третий фрейм Уровня I содержит многоканальный заголовок. Первые 16 или 24 бит многоканального расширения образуют многоканальный заголовок, предоставляя информацию о наличии центрального канала, каналов окружения, канала LFE, требуемой процедуры дематрицирования, числе многоязычных каналов, содержавшихся в потоке бит многоканального расширения, частоте дискретизации многоязычных каналов, уровне кодирования, который был применен к многоязычным каналам и идентификации авторского права.

Эта часть стандарта позволяет расширить диапазон скоростей передачи для трех Уровней. Это достигается путем использования потока битов расширения, который содержит остаток от данных многоканальных/многоязычных данных. Пример структуры этого потока битов для Уровня II изображен на рисунке А.2. В пределах потока битов MPEG-2 основной поток битов содержит, по крайней мере, аудиоданные MPEG-1 и заголовок МС. Соответствующая структура потока битов Уровня III изображена на рисунке А.3.

Метод обнаружения ошибок с помощью обязательного слова проверки CRC, которое следует непосредственно за mc_header, идентичен используемому в ГОСТ Р 54711.

4.2.5.2 Декодирование. Уровни I и II

4.2.5.2.1 Режимы составного кодирования

4.2.5.2.1.1 Переключение канала передачи

Распределение звуковых каналов по каналам передачи (tc_allocation) допустимо как для всего спектра, так и для отдельных групп субполос в зависимости от значения tc_sbgr_select. Поле tc_allocation определяет, какие звуковые каналы содержатся в каналах передачи. Для каждого варианта существует матрица декодирования, которая должна быть применена в пространстве субполос ко всем передаваемым каналам для получения выходных каналов. Матрицы даны ниже. Результирующие сигналы по-прежнему должны оставаться денормализованными. Если выбирается dematrix_procedure=='11', все сигналы могут быть получены непосредственно из каналов передачи и дематрицирование не требуется. В этом случае применяется значение по умолчанию tc_allocation=='0'. Если dematrix_procedure=='10', следующая обработка необходима для каналаов окружения:

а) в конфигурации 3/2 вычислить моноканал окружения

;

б) результирующий сигнал должен использоваться для дематрицирования.

Следующая обработка может быть применена к сигналам и в конфигурации 3/2 или в конфигурации 3/1 до выхода (эти операции не могут быть выполнены до дематрицирования):

а) фазовый сдвиг на - 90 градусов;

б) экспандирование.

Матрицы декодирования:

Следующие уравнения дематрицирования допустимы для различных многоканальных конфигураций. Уравнения дематрицирования не влияют на вторую стереопрограмму.

Конфигурация 3/2, процедура дематрицирования '00' или '01':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

tc_allocation

Матрица декодирования

3

tc_allocation

Матрица декодирования

4

tc_allocation

Матрица декодирования

5

tc_allocation

Матрица декодирования

6

tc_allocation

Матрица декодирования

7

Конфигурация 3/2, процедура дематрицирования '10':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

tc_allocation

Матрица декодирования

3

tc_allocation

Матрица декодирования

4

tc_allocation

Матрица декодирования

5

tc_allocation

Матрица декодирования

6

tc_allocation

Матрица декодирования

7

Конфигурация 3/1, процедура дематрицирования '00' или '01:

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

tc_allocation

Матрица декодирования

3

tc_allocation

Матрица декодирования

4

Конфигурация 3/1, процедура дематрицирования '10':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

tc_allocation

Матрица декодирования

3

tc_allocation

Матрица декодирования

4

tc_allocation

Матрица декодирования

5

Конфигурация 3/0, процедура дематрицирования '00' или '01':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

Конфигурация 2/2, процедура дематрицирования '00' или '01':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

tc_allocation

Матрица декодирования

3

Конфигурация 2/1, процедура дематрицирования '00' или '01':

tc_allocation

Матрица декодирования

0

tc_allocation

Матрица декодирования

1

tc_allocation

Матрица декодирования

2

4.2.5.2.1.2 Динамическое перекрестное распределение

Если режим динамического перекрестного распределения включен в канале для определенной группы субполос, то есть dyn_cross[Tx][sb] является истиной, информация о распределении битов для каждой субполосы этой группы субполос и кодированные субполосные отсчеты не передаются. Информация о распределении битов и восстановленные субполосные отсчеты должны быть скопированы из соответствующего канала передачи. Поле dyn_cross_mode в потоке битов указывает, из какого канала и в какой канал должны быть скопированы субполосные отсчеты. Информация о выборе масштабных коэффициентов и масштабные коэффициенты, которые должны использоваться для перемасштабирования субполосных отсчетов, тем не менее содержатся в потоке битов.

Следующие правила применимы к различным конфигурациям.

Конфигурация 3/2

Если канал передачи отсутствует и соответствующим каналом воспроизведения является , канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения в является и dyn_cross_LR '0', канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если dyn_cross_LR '1', этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения является , этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если отсутствует канал передачи , содержащий либо , либо , каналы воспроизведения или образуются путем умножения субполосных отсчетов на масштабные коэффициенты, переданные в . Если отсутствует канал передачи , содержащий либо , либо , эти каналы образуются путем умножения субполосных отсчетов на масштабные коэффициенты, переданные в . означает, что субполосные отсчеты в канале передачи должны быть скопированы из канала передачи . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов на масштабные коэффциенты . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов на масштабные коэффициенты . Остальная часть декодирования идентична декодированию без режима динамического перекрестного распределения.

Конфигурация 3/1

Если канал передачи отсутствует и соответствующим каналом воспроизведения является , канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения в является и dyn_cross_LR '0', канал образуется путем умножения субполосных отсчетов, переданных для, на масштабные коэффициенты, переданные в. Если dyn_cross_LR '1', этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения является , этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если канал передачи отсутствует и соответствующим каналом воспроизведения является и dyn_cross_LR '0', канал образуется путем умножения субполосных отсчетов, переданных для, на масштабные коэффициенты, переданные в . Если канал передачи отсутствует и соответствующим каналом воспроизведения является и dyn_cross_LR '1', канал образуется путем умножения субполосных отсчетов, переданных для, на масштабные коэффициенты, переданные в .

означает, что субполосные отсчеты в канале передачи должны быть скопированы из канала передачи . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов на масштабные коэффициенты . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов нa масштабные коэффициенты . Остальная часть декодирования идентична декодированию без режима динамического перекрестного распределения.

Конфигурация 3/0

Если канал передачи отсутствует и соответствующим каналом воспроизведения является , канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения в является и dyn_cross_ LR '0', канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если dyn_cross_LR '1', этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения является , этот канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Остальная часть декодирования идентична декодированию без режима динамического перекрестного распределения.

Конфигурация 2/2

Если канал передачи отсутствует и соответствующими каналами воспроизведения являются или , они образуются путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если канал передачи отсутствует и соответствующими каналами воспроизведения являются или , они образуются путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в .

означает, что субполосные отсчеты в канале передачи должны быть скопированы из канала передачи . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов на масштабные коэффциенты . Входные отсчеты для фильтра синтеза канала передачи образуются путем умножения субполосных отсчетов нa масштабные коэффициенты . Остальная часть декодирования идентична декодированию без режима динамического перекрестного распределения.

Конфигурация 2/1

Если канал передачи отсутствует и соответствующим каналом воспроизведения является , канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если недостающим каналом воспроизведения является , канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если канал передачи отсутствует и соответствующим каналом воспроизведения является и dyn_cross_LR '0', канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в . Если канал передачи отсутствует и соответствующим каналом воспроизведения является и dyn_cross_LR '1', канал образуется путем умножения субполосных отсчетов, переданных для , на масштабные коэффициенты, переданные в .

4.2.5.2.1.3 MC_Prediction

Если биты mc_prediction_on и mc_prediction[sbgr] установлены, биты predsi[sbgr][px] определяют, какое предсказывающее устройство используется и сколько коэффициентов pred_coef [sbgr] [рх] [pci] передается для каждой группы субполос sbgr. Если predsi[sbgr][px] '01', '10' или '11', компенсация задержки delay_comp [sbgr] [рх] и следующие 1, 2 или 3 коэффициента предсказания должны быть считаны из потока битов. Коэффициенты предсказания передаются как 8 битов uimsbf значения и должны быть восстановлены согласно следующему уравнению:

pred_coef [sbgr] [рх] [pci] = (pred_coef [sbgr] [рх] [pci]-127)/32.

Если передается менее чем три коэффициента, остающиеся pred_coef [sbgr][рх] [pci] обнуляются. Если predsi[sbgr] [рх] '00', все соответствующие pred_coef [sbgr] [рх] [pci] обнуляются.

Для групп субполос без режима динамического перекрестного распределения в конфигурации 3/2 (dyn_cross_mode [sbgr]=='0000') имеет место следующее соответствие коэффициентов предсказания, сохраненных в pred_coef [sbgr] [рх] [pci] каналам передачи, и (npred=6):

Для других конфигураций и различных режимов динамического перекрестного распределения, соответствие коэффициентов предсказания каналам передачи должно быть адаптировано к динамическим таблицам перекрестного распределения (см. 4.2.4.15).

Конфигурация 3/2, dyn_cross_mode [sbgr] = '0010', npred=4

Для каждого из трех сигналов, переданных в каналах передачи , и , сигналы предсказания в каждой группе субполос sbgr вычисляются следующим образом:

где и относятся к субполосным отсчетам и после переквантования и использования масштабных коэффициентов.

Путем суммирования переданных сигналов ошибки предсказания с сигналами предсказания, сигналы в группе субполос sbgr восстанавливаются с помощью соответственно трех, двух или одного из следующих уравнений:

,

,

.

В случаях режимов динамических перекрестных распределений, где комбинированные сигналы, обозначенные Тху или Txyz, передаются в одном из каналов передачи , или , предсказание не может быть применено.

4.2.5.2.2 Процедура переквантования

См. ГОСТ Р 54711, 5.3.1 и 5.3.2.1.

4.2.5.2.3 Декодирование масштабных коэффициентов

См. ГОСТ Р 54711, 5.3.3.2.

4.2.5.2.4 Декодирование сигналов канала низкой частоты

Канал низкой частоты передается как блочно-компандированные линейные ИКМ-отсчеты на частоте дискретизации в 96 раз ниже частоты дискретизации других каналов. Переквантование переданных отсчетов и использование масштабных коэффициентов выполняется как в ГОСТ Р 54711 для Уровня I (без группировки). Так как ширина канала LFE выбирается равной 125 Гц, рекомендуется перед воспроизведением использование фильтра нижних частот с частотой среза 125 Гц для минимизации искажений вне полосы частот LFE.

4.2.5.2.5 Процедура денормализации

В декодере взвешенные сигналы , , , , должны подвергнуться обратной операции, путем умножения сигналов на обратные значения весовых коэффициентов. Затем эти сигналы умножаются на коэффициент денормализации, чтобы отменить аттенюацию, произведенную в кодере, во избежание перегрузки при вычислении совместных сигналов.

dematrix_proсеdure

Сигналы

Обратный весовой коэффициент

Коэффициент денормализации

'00', '10'

,

1

, ,

'01'

,

1

,

2

'11'

, , , ,

1

1

4.2.5.2.6 Субполосный фильтр синтеза

См. ГОСТ Р 54711, 5.3.3.5.

4.2.5.3 Декодирование. Уровень III

4.2.5.3.1 Списки сегментов. Уровень III

Синтаксис списка сегментов позволяет гибкое кодирование многоканальных сигналов в режиме joint stereo с использованием всего нескольких битов в минимальном случае. Основная идея состоит в получении каждого выходного звукового канала из спектральных данных переданных каналов (ТС). Для различных частей спектра канала (сегментов) ситуация может меняться. Для каждого сегмента передаются длина и номер исходного ТС (seg_length, в единицах scalefactorband_groups и tc_select соответственно). Для Уровня III определены следующие номера ТС:

Номер ТС

Канал

Мнемоника

0

left_comp_chan

1

right_comp_chan

2

left_chan

3

right_chan

4

centre_chan

5

left_surr_chan, mono_surr_chan

6

right_surr_chan

7

"Дематрицирование"

-

Если передается вторая стереопрограмма (surround =='11'), ТС 5 и 6 используются для левого и правого каналов соответственно. Если используется dematrix_procedure == '11' (нет матрицирования), сигналы левого и правого каналов передаются в ТС 0 и 1, соответственно, вместо TC 2 и 3.

Для каждого ТС существует структура данных, то есть служебные данные и кодированные Хаффманом спектральные значения. Флаги tc_present используются, чтобы указать, какие ТС передаются, то есть сколько наборов служебных данных и основной информации содержится в потоке битов mc_audio. В случае MPEG-2, количество служебных данных для каждого канала является переменным. Кроме этого различия, декодирование Хаффмана аналогично используемому в декодере MPEG-1.

Каждый сегмент выходного аудиоканала ch по умолчанию соответствует определенному ТС (tc_select==ch), однако при составном кодировании ставится в соответствие другому ТС. В этом случае передается значение аттенюации и применяется к спектральным данным ТС для восстановления спектральных данных выходного аудиоканала. В особом случае, когда tc_select==7, соответствующие сегменты восстанавливаются путем дематрицирования.

Для нескольких типов списков сегмента были определены следующие ярлыки:

seglist_present == 0 указывает на список сегментов, в котором данные всех охваченных scalefactorband_groups восстанавливаются путем дематрицирования (максимальная длина сегмента tc_select=7);

seglist_nodef == 0 указывает на простой список сегментов "по умолчанию", в котором данные всех охваченных scalefactorband_groups передаются в пределах соответствующего ТС (максимальная длина сегмента tc_select=ch);

seglist_repeat ==1 указывает, что для гранулы 1 используется тот же самый список сегментов, что и для гранулы 0.

Списки сегментов могут быть допустимы либо для одной из гранул, либо в соответствии с segment_list_repeat для обеих гранул в пределах одного фрейма. Если seg_length равен нулю, список сегментов завершен и оставшаяся часть спектра канала обнуляется.

Для частот выше границы scalefactorband_group (обозначенной dematrix_length), списки сегментов используются, чтобы обозначить каналы, которые могут быть кодированы совместно. Для scalefactorband_groups ниже, чем dematrix_length, используется менее гибкий метод назначения фактических переданных каналов, который не учитывает совместное кодирование.

Элемент dematrix_select представляет собой 3-4 бита с 14 возможными значениями (для конфигурации 3/2). Это используется для нахождения тех каналов, которые должны быть дематрицированы, и тех, которые передаются. В результате дематрицирования может быть восстановлено до двух каналов. В то время как списки сегментов передаются для каждой гранулы, dematrix_select допустим для обеих гранул.

4.2.5.3.2 Процесс декодирования. Уровень III

Если поток битов расширения доступен, его блок доступа может содержать части mc_composite_status_info и mc_audio_data. Их содержимое объединяется с mc_composite_status_info и/или mc_audio_data основной части данных MPEG-1 объединенного потока битов. Цель указателя mc_data_begin вычисляется в буфере, содержащем объединенный поток битов. Структура многоканальных/многоязычных потоков битов Уровня III приведена в приложении 3. Возможные ext_data (обозначенные флагом ext_bit_stream_present в mc_header) должны быть вставлены между mpeg2_main_data и mpeg1_ancillary данными.

Процесс декодирования состоит из 10 шагов:

1 Расширение исходных списков сегментов

Выполняется путем оценивания seg_list_present, seg_list_nodef и seg_list_repeat. Если эти элементы синтаксиса указывают, что используется ярлык, то полное segment_list представление расширяется согласно описанию ярлыков в 4.2.5.3.1.

2 Создание карт декодирования

При создании карты data_present [gr] [tc] [sfb] заключается в описании того, какие спектральные данные ТС (в зависимости от гранулы, переданного канала и scalefactorband) фактически передаются. Это выполняется путем определения scalefactorbands, на которые ссылаются dematrix_select или segment_lists (как часть scalefactorband_group).

Кроме того, при создании карты js_carrier [gr] [tc] [sbgr] описывается, какие спектральные данные ТС (в зависимости от гранулы, переданного канала и scalefactorband_group) используются в качестве транспорта для joint stereo. Это выполняется для каждого звукового канала ch путем определения scalefactorband_groups с tc_select! = ch.

3 Декодирование информации о ТС

Выполняется повторное квантование данных всех каналов ТС tc_present. Этот шаг аналогичен декодированию на Уровне III MPEG-1 при использовании информации в элементах block_type, scalefac_l, scalefac_s, scfsi, part2_3_length, big_values, global_gain, scalefac_compress, table_select, subblock_gain, region0_count, region1_count, preflag, scalefac_scale, count1table_select. Декодируемые данные представляют собой необработанную спектральную информацию соответствующего выходного аудиоканала, где все коэффициенты, принадлежащие scalefactorbands с data_present [gr] [tc] [sfb] == 0 не были учтены.

4 Декодирование предсказания MultiChannel

Декодирование многоканального предсказания выполняется аналогично декодированию на Уровнях I и II, независимо для каждой scalefactorband_group sbgr. Если mc_prediction_on выключен, ни для какой scalefactorband_group декодирование предсказания не требуется. Если флаг mc_prediction_sbgr [sbgr] сброшен, в соответствующей scalefactorband_group предсказание не используется, и информация о предсказании не передается. Информация о предсказании передается единожды для каждого фрейма и применяется к обеим гранулам.

Для каждой scalefactorband_group sbgr возможные комбинации предсказания вычисляются согласно следующим правилам.

Каждый канал может быть целевым каналом для многоканального предсказания, если (1) данные передаются для одной из гранул (data_present [gr_0] [ch] [sfb (sbgr)]! =0 || data_present [gr_1] [ch] [sfb (sbgr)]! =0), и (2) у источника и целевого канала один и тот же block_type.

Для каждого возможного целевого канала возможны один или два исходных канала (и коэффициенты предсказывающего устройства):

Целевой канал

Количество исходных каналов

Исходный канал

1

1

,

2

,

1

1

В случае режима joint stereo (js_carrier [gr] [ch] [sbgr]!=0) исходные каналы и расцениваются как возможные исходные каналы. Значение npredcoef обозначает общее количество возможных коэффициентов предсказания в одной scalefactorband_group. Для коротких блоков (block_type=='10') npredcoef является нулем для scalefactorband_groups выше 11 (то есть выше числа, определенного в scalefactorband_groups).

Для каждого возможного коэффициента передается один бит в информации о выборе предсказывающего устройства predsi [sbgr] []. Биты для возможных коэффициентов упорядочиваются согласно целевому каналу, используя стандартный порядок назначения каналов, то есть , , , , . Если для целевого канала возможны два исходных канала, первый бит соответствует исходному каналу , а второй - исходному каналу .

Если predsi [sbgr] [pci]==0', соответствующий коэффициент pred_coef [sbgr] [pci] устанавливается в 0. В противном случае коэффициент должен быть передан. Упорядочивание коэффициентов такое же, как для predsi, то есть коэффициенты организуются в соответствии с целевым каналом (грубое упорядочивание) и с исходным каналом (точное упорядочивание). Коэффициенты повторно квантуются в соответствии со следующей таблицей:

Переданное значение

Повторно квантованное значение

0

-0.61199

1

-0.24565

2

0.24565

3

0.61199

4

1.15831

5

1.97304

6

3.18805

7

5

5 Вычисление сигналов предсказания:

Для каждого из целевых каналов вычисляются сигналы предсказания и суммируются с сигналами ошибок предсказания:

+= pred_coef_L[sbgr]*,

+= pred_coef_R [sbgr]*,

+= pred_coef_C1[sbgr]* + pred_coef_C2[sbgr]*,

+= pred_coef_LS[sbgr]* ,

+= pred_coef_RS[sbgr]*,

и для случая joint stereo

JS += pred_coef_JS1[sbgr]* + pred_coef_JS2[sbgr]*.

Суммирование предсказанных сигналов выполняется только для гранул, в которых данные передаются для соответствующих каналов (data_present [gr] [ch] [sbgr]! =0).

6 Декодирование канальных данных

Каждый выходной звуковой канал образуется из декодируемых данных ТС в соответствии с его списком сегментов и конфигурации dematrix_select. Все scalefactorbandgroups, которые восстанавливаются в результате дематрицирования, должны быть исключены. Карта data_present используется, чтобы направить кодированные спектральные значения из данных ТС к корректным scalefactorbandgroup позициям в буфере спектральных значений целевых каналов.

Для совместно кодированных сегментов (то есть tc_select! = ch && tc_select! = 7) операция масштабирования применяется к спектральным данным с использованием переданных значений аттенюации следующим образом:

- определение основного коэффициента аттенюации (1/ для attenuation_scale == 1, в противном случае 1/);

- масштабирование с использованием фактического коэффициента затухания

c

7 Дематрицирование

Дематрицирование используется для восстановления отсутствующих scalefactorband_groups (только для dematrix_procedure!='11', но не для второй стереопрограммы, surround == '11').

Для первого dematrix_length номера scalefactorband_groups дематрицируемые части определяются переданными значениями dematrix_select для всего фрейма. Выше этой границы они определяются сегментами c tc_select==7 из списка сегментов. Дематрицирование выполняется путем восстановления от 0 до 2 каналов по уравнениям для конфигурации 3/2 стерео:

и,

или в случае конфигурации 3/1 стерео:

и,

где - общая аттенюация для всех каналов, и - коэффициенты аттенюации центрального канала и канала окружения. Для других конфигураций стереоуравнения могут быть получены из одного из приведенных выше заменой отсутствующих звуковых каналов нулевым значением. В случае dematrix_procedure=='10', уравнения дематрицирования изменяются в соответствии с 4.2.5.2.1.

Значения коэффициента аттенюации определяются для каждой процедуры дематрицирования:

dematrix_procedure

'00'

'01'

0,5

'10'

8 Фантомное кодирование центрального канала

В случае фантомного кодирования центрального канала (centre=='11'), шумы в дематрицированном центральном канале, возникающие в результате кодирования, подавляются за счет ограничения ширины указанного канала в соответствии со следующей таблицей:

Частота дискретизации, Гц

Число частотных линий в центральном канале

48000

230

44100

238

32000

296

Этот шаг выполняется до дематрицирования второго канала.

9 Корректировка дематрицирования joint stereo

Если флаг matrix_attenuation_present установлен, стандартная процедура канального дематрицирования должна быть изменена. Для процедуры дематрицирования все scalefactorband_group, кодированные с помощью joint stereo, масштабируются коэффициентом аттенюации. Это масштабирование выполняется независимо для обеих частей уравнений дематрицирования, в которые входят и .

Масштабные коэффициенты ml и mr определяются по переданным значениям matrix_attenuation:

Здесь js_ch обозначает ТС, для которого фактические спектральные данные joint stereo кодированных сигналов были переданы, и sbgr обозначает индекс scalefactorband_group.

Эта процедура показана ниже для случая joint stereo кодирования каналов и (рисунок 1). Спектральные данные передаются в ТС канала (то есть ТС 2). Таким образом, образуется из тех же данных с использованием соответствующих значений аттенюации. Перед дематрицированием и масштабируются коэффициентами ml и mr. Эта операция масштабирования не применяется к выходным звуковым данным.


Рисунок 1 - joint stereo кодирования каналов и

10 Набор фильтров синтеза

Набор фильтров синтеза аналогичен приведенному в ГОСТ Р 54711.

4.2.5.3.3 Декодирование LFE. Уровень III

Значения LFE декодируются из упрощенного потока битов Уровня III.

Декодирование значений Хаффмана выполняется при помощи таблицы кода Хаффмана lfe_table_select.

Декодирование переданных кодов Хаффмана продолжается до тех пор, пока все битовы, обозначенные lfe_hc_len, не окажутся исчерпанными. После этого процесса становится известно значение lfe_bigval. Для ясности этот параметр используется для указания количества слов кода Хаффмана, используемых для передачи спектральных данных НЧ -анала. Декодируемые компоненты х и у интерпретируются как значения соответствующих спектральных коэффициентов для гранул 0 и 1.

Далее выполняется переквантование, аналогичное переквантованию данных ТС. Для этой цели используется lfe_gain, а масштабный коэффициент и усиление подблока принимаются равными нулю.

В качестве банка фильтров синтеза для восстановления данных в коротких блоках (block_type=='10') в канале низкой частоты используется ОМДКП, являющееся частью гибридного банка синтеза в ГОСТ Р 54711. Таким образом, тип окна, описанный в ГОСТ Р 54711 "Работа с окнами (d)" применяется к 12 выходным отсчетам ОМДКП каждой гранулы.

Поскольку для каждой гранулы используется только одно окно, процедура сложения с перекрытием упрощается до:

,

0…5

,

0…5

4.2.5.3.4 Декодирование ML данных. Уровень III

Если multilingual_fs == 0, см. ГОСТ Р 54711, 5.3.4

Если multilingual_fs == 1, см. ГОСТ Р 54711, 5.2.2.

Для использования ML основных данных nch устанавливается в no_of_multi_lingual_ch.

Приложение А
(обязательное)

Схемы


Рисунок А.1 - Структура многоканального расширения настоящего стандарта Уровня II, обратносовместимого с ГОСТ Р 54711. Уровень II


Рисунок А.2 - Пример типичной структуры многоканального расширения стандарта Уровня II с использованием основного потока битов, совместимого с ГОСТ Р 54711, так же как и поток битов расширения


Рисунок А.3 - Пример типичной структуры многоканального расширения стандарта Уровня III. Возможные ext_data должны быть вставлены между mpeg2_main_data и mpeg1_ancillary данными

_______________

* Без учета: mpeg1_header, mpeg1_error_check, mpeg1_audio_side_info.

** Без учета: mpeg1_header, mpeg1_error_check, mpeg1_audio_side_info, mpeg1_audio_main_data, mc_header, mc_error_check, mc_composite_status_info, mc_audio_side_info, mpeg1_ancillary_data.

Приложение Б
(обязательное)

Таблицы

Таблица Б.1. Допустимое квантование в субполосах. Уровень II.Частоты дискретизации 16; 22,05; 24 кГц

sb

nbal

Индекс

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

1

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

2

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

3

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

4

3

-

3

5

9

15

31

63

127

5

3

-

3

5

9

15

31

63

127

6

3

-

3

5

9

15

31

63

127

7

3

-

3

5

9

15

31

63

127

8

3

-

3

5

9

15

31

63

127

9

3

-

3

5

9

15

31

63

127

10

3

-

3

5

9

15

31

63

127

11

2

-

3

5

9

12

2

-

3

5

9

13

2

-

3

5

9

14

2

-

3

5

9

15

2

-

3

5

9

16

2

-

3

5

9

17

2

-

3

5

9

18

2

-

3

5

9

19

2

-

3

5

9

20

2

-

3

5

9

21

2

-

3

5

9

22

2

-

3

5

9

23

2

-

3

5

9

24

2

-

3

5

9

25

2

-

3

5

9

26

2

-

3

5

9

27

2

-

3

5

9

28

2

-

3

5

9

29

2

-

3

5

9

30

0

-

31

0

-

sblimit = 30

Сумма nbal = 75

Таблица Б.2. Полосы масштабных коэффициентов. Уровень III

В этих таблицах приводится ширина каждой полосы масштабных коэффициентов. Существует 22 полосы масштабных коэффициентов для длинных окон (тип 0, 1 или 3) и 13 полос масштабных коэффициентов для коротких окон на каждой частоте дискретизации. Так как масштабный коэффициент для последней полосы устанавливается в фиксированное значение и не передается, количество масштабных коэффициентов равно 21 для длинных окон и 12 для коротких окон.

Частота дискретизации 16 кГц, длинные блоки, число линий 576

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

6

0

5

1

6

6

11

2

6

12

17

3

6

18

23

4

6

24

29

5

6

30

35

6

8

36

43

7

10

44

53

8

12

54

65

9

14

66

79

10

16

80

95

11

20

96

115

12

24

116

139

13

28

140

167

14

32

168

199

15

38

200

237

16

46

238

283

17

52

284

335

18

60

336

395

19

68

396

463

20

58

464

521

21

54

522

575

Частота дискретизации 16 кГц, короткие блоки, число линий 192

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

4

0

3

1

4

4

7

2

4

8

11

3

6

12

17

4

8

18

25

5

10

26

35

6

12

36

47

7

14

48

61

8

18

62

79

9

24

80

103

10

30

104

133

11

40

134

173

12

18

174

191

Частота дискретизации 22,05 кГц, длинные блоки, число линий 576

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

6

0

5

1

6

6

11

2

6

12

17

3

6

18

23

4

6

24

29

5

6

30

35

6

8

36

43

7

10

44

53

8

12

54

65

9

14

66

79

10

16

80

95

11

20

96

115

12

24

116

139

13

28

140

167

14

32

168

199

15

38

200

237

16

46

238

283

17

52

284

335

18

60

336

395

19

68

396

463

20

58

464

521

21

54

522

575

Частота дискретизации 22,05 кГц, короткие блоки, число линий 192

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

4

0

3

1

4

4

7

2

4

8

11

3

6

12

17

4

6

18

23

5

8

24

31

6

10

32

41

7

14

42

55

8

18

56

73

9

26

74

99

10

32

100

131

11

42

132

173

12

18

174

191

Частота дискретизации 24 кГц, длинные блоки, число линий 576

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

6

0

5

1

6

6

11

2

6

12

17

3

6

18

23

4

6

24

29

5

6

30

35

6

8

36

43

7

10

44

53

8

12

54

65

9

14

66

79

10

16

80

95

11

18

96

113

12

22

114

135

13

26

136

161

14

32

162

193

15

38

194

231

16

46

232

277

17

54

278

331

18

62

332

393

19

70

394

463

20

76

464

539

21

36

540

575

Частота дискретизации 24 кГц, короткие блоки, число линий 192

Полоса

Ширина полосы

Начальная линия

Конечная линия

0

4

0

4

1

4

4

8

2

4

8

12

3

6

12

18

4

8

18

26

5

10

26

36

6

12

36

48

7

14

48

62

8

18

62

80

9

24

80

104

10

32

104

136

11

44

136

180

12

12

180

192

Приложение В
(обязательное)

Процесс кодирования

В.1 Расширение для поддержки меньших частот дискретизации

В этой части приложения описываются отличия от кодеров ГОСТ Р 54711.

В.1.1 Меньшие частоты дискретизации. Уровень I

Единственными отличиями от кодера, описанного в ГОСТ Р 54711, являются форматирование и психоакустическая модель. Кодированная субполосная информация передается во фреймах, состоящих из слотов. На Уровне I слот состоит из 32 битов. Количество слотов во фрейме зависит от частоты дискретизации и скорости передачи. Каждый аудиофрейм содержит информацию о 384 отсчетах каждого канала исходного входного сигнала.

Fs, кГц

Длина фрейма, мс

24

16

22,05

17,415..

16

24

Число слотов во фрейме может быть вычислено по формуле:

число слотов на фрейм () = скорость передачи * 12 / Fs.

Если в результате получается не целое число, то его необходимо округлить, при этом требуется дополнение нулями. Это означает, что число слотов может меняться между и . Используется та же самая процедура дополнения нулями, что и в ГОСТ Р 54711, 5.2.3, для определения необходимости добавления дополнительного бита.

Для поддержки меньших частот дискретизации психоакустическая модель должна быть изменена (см. приложение Г.1).

В.1.2 Меньшие частоты дискретизации. Уровень II

Отличиями от кодера, описанного в ГОСТ Р 54711, являются форматирование, допустымые режимы квантования и психоакустическая модель. Кодированная субполосная информация передается во фреймах, состоящих из слотов. На Уровне II слот состоит из 8 битов. Количество слотов во фрейме зависит от частоты дискретизации и скорости передачи. Каждый аудиофрейм содержит информацию о 1152 отсчетов каждого канала исходного входного сигнала.

Fs, кГц

Длина фрейма, мс

24

48

22,05

52,245..

16

72

Число слотов во фрейме может быть вычислено по формуле

число слотов на фрейм () = скорость передачи * 144 / Fs

Если в результате получается не целое число, то его необходимо округлить, при этом требуется дополнение нулями. Это означает, что число слотов может меняться между и . Используется та же самая процедура дополнения нулями, что и в ГОСТ Р 54711, 5.2.3, для определения необходимости добавления дополнительного бита.

Вместо таблицы Б.2 ГОСТ Р 54711 должна использоваться таблица Б.1 настоящего стандарта.

Для поддержки меньших частот дискретизации психоакустическая модель должна быть изменена ( см. приложение Г.1).

В.1.3 Меньшие частоты дискретизации. Уровень III

Отличиями от кодера, описанного в ГОСТ Р 54711 являются измененные таблицы полос масштабных коэффициентов, пропуск некоторой служебной информации из-за измененной структуры фрейма и некоторых измененных таблиц в психоакустической модели. Все основные шаги, описанные в ГОСТ Р 54711, применяются,за исключением вычисления информации о выборе масштабных коэффициентов.

В.2 Многоканальное расширение

В этой части приложения даны два примера многоканальных кодеров - один для Уровней I и II, и один для Уровня III. Примеры допустимы для конфигурации каналов 5 (то есть, левый, центральный, правый, левый окружения, правый окружения и канал низкой частоты), и для многоязычного расширения того же уровня, что и у многоканального расширения.

В.2.1 Многоканальное расширение. Уровни I, II

В.2.1.1 Банк фильтров

Используемые банки фильтров аналогичны тем, что используются в ГОСТ Р 54711, то есть полифазные 32-полосные банки фильтров для всех уровней, сопровождаемые МДКП субполосных сигналов только на Уровне III. Субполосная фильтрация должна быть применена ко всем пяти каналам.

В.2.1.2 Вычисление масштабных коэффициентов

Вычисление масштабных коэффициентов для Уровня II и выбор масштабных коэффициентов производятся аналогично ГОСТ Р 54711.

В.2.1.3 Психоакустические модели

Применяются две психоакустических модели, описанные в ГОСТ Р 54711. Для всех пяти каналов вычисляются отношения сигнал-маска для всех субполос.

В.2.1.4 Предыскажения

Предыскажение (или предварительное квантование) используется для предотвращения немаскированного и неожиданного шума в звуковых каналах при выполнении дематрицирования в декодере. Этот шум может появиться, потому что дематрицирование в декодере выполняется для многоканальных сигналов расширения, отличных от тех, которые использовались для процесса матрицирования в кодере. В декодере доступны только квантованные отсчеты. Предварительное квантование этих отсчетов в кодере, до матрицирования, позволит избежать слышимых артефактов.

Для каждой группы субполос используются следующие процедуры:

- шаг 1 - переключение канала передачи, выбор многоканальных сигналов расширения , , и соответствующего tc_allocation.

Если tc_allocation [sbgr] равняется 1 или 7:

- шаг 2 - кодирование и декодирование и в соответствии с порогом маскирования;

- шаг 3 - матрицирование с использованием предыскаженных версий и для получения ;

- шаг 4 - вычисление предыскаженного центрального канала, как это будет выполнено в декодере после кодирования и декодирования ;

- шаг 5 - матрицирование с использованием предыскаженного центрального канала и предыскаженной версии для получения .

Если tc_allocation [sbgr] равняется 2 или 6:

- шаг 2 - кодирование и декодирование и в соответствии с порогом маскирования;

- шаг 3 - матрицирование с использованием предыскаженных версий и для получения ;

- шаг 4 - вычисление предыскаженного центрального канала, как это будет выполнено в декодере после кодирования и декодирования ;

- шаг 5 - матрицирование с использованием предыскаженного центрального канала и предыскаженной версии для получения .

Если tc_allocation [sbgr] равняется 0, 3, 4 или 5:

- шаг 2 - кодирование и декодирование , , в соответствии с порогом маскирования;

- шаг 3 - матрицирование с использованием предыскаженных версий , , для получения совместной пары (, ).

Если сигнал центрального канала преобладает в определенной группе субполос, рекомендуется использовать только те tc_allocations, которые не содержат сигнал центрального канала в одном из дополнительных каналов передачи.

В.2.1.5 Матрицирование

В первую очередь все сигналы должны быть ослаблены во избежание перегрузки при вычислении совместного сигнала стерео. Коэффициент аттенюации зависит от выбранной процедуры матрицирования:

процедура 0, 2 - ;

процедура 1 - ;

процедура 3 - 1.

Далее сигналы центрального канала, каналов левого и правого окружения должны быть ослаблены до вычисления совместного сигнала стерео. Используются следующие коэффициенты аттенюации:

процедура 0, 2 - , , ;

процедура 1 - , , ;

процедура 3 - , , .

Сигналы после аттенюации обозначаются , , .

Далее вычисляется совместный сигнал согласно:

процедура 0, 1 - , ;

процедура 2 - ,

Сигналы, которые будут переданы в и , образуются из и , к которым дополнительно могут быть применены сжатие динамического диапазона и сдвиг фазы на 90 градусов. образуется из и вычислением монокомпонента ( и )/2;

процедура 3 - ,

B.2.1.6 Динамическое переключение канала передачи

Во избежание слышимых артефактов, возникающих в процессе дематрицирования, необходимо выбрать корректное распределение канала передачи. Это относится к процедурам матрицирования 0, 1 и 2. Простой, но эффективный подход заключается в выборе для каналов передачи , , каналов с наименьшими масштабными коэффициентами в рассматриваемой группе субполос. Для групп субполос, которые состоят более чем из одной субполосы, сначала должно быть найдено максимальное значение масштабного коэффициента среди масштабных коэффициентов субполос, входящих в группу. Далее три сигнала с наименьшими коэффициентами по отношению к максимальному масштабному коэффициенту (самый высокий индекс scalefactor) распределяются на каналы передачи , и . Если выделение канала передачи одинаковое или почти одинаковое для всех групп субполос, битов tc_sbgr_select может быть установлен в '0', и в этом случае будет использоваться только один tc_allocation для всех групп субполос.

В.2.1.7 Динамическое распределение каналов

Согласно бинауральной модели человеческого уха, составлящие стерео- (многоканальных) сигналов обладают широкой стереобазой, если невозможна их пространственная локализация. Такие составляющие стереосигнала не маскируются, однако, с другой стороны, они не способствуют локализации источников звука. Поэтому не требуется постоянная передача всех каналов, в особенности если в них содержатся стерео-компоненты, не способствующие пространственной локализации источника звука. В таком случае любой канал многоканального стерео (, , , или) может заменить любой другой канал. Это может выполняться как для групп субполос (для этих целей доступно 12 таких групп), так и для целого звукового канала. При декодировании этот канал или его часть воспроизводятся любым каналом воспроизведения или несколькими каналами воспроизведения, без оказания влияния на пространственное восприятие.

Динамический метод распределения каналов, используемый на Уровнях I и II, основан на кодировании intensity stereo, описанном в ГОСТ Р 54711, приложение Ж, однако позволяет достичь существенно большей гибкости при распределении между различными каналами и обеспечивает существенно более высокое разрешение по частоте. Динамическое распределение каналов может использоваться для увеличения качества звучания при заданной скорости передачи и/или уменьшения скорости передачи для многоканальных аудиосигналов при том же уровне качества. Этот метод требует незначительного дополнительного усложнения декодера и не влияет на задержку в кодере и декодере.

Динамическое распределение каналов основано на известных психоакустических эффектах. С одной стороны, в этом методе, как и в intensity stereo кодировании, используется свойство слухового анализатора локализовать источник на высоких частотах, главным образом по огибающей во временной области, а не по микроструктуре аудиосигнала. С другой стороны, динамическое распределение каналов основано на том факте, что только быстрые изменения огибающей во временной области важны для локализации. Однако стационарные части, в особенности после атак, вносят гораздо меньший вклад в локализацию. Это означает, что для определенных временных интервалов в определенных областях спектра допустимо динамическое распределение каналов. Такие сигналы должны быть выявлены в кодере в результате анализа и переданы в режиме "моно" в одном канале. Сигналы могут быть выявлены на основе анализа групп субполос. До трех каналов передачи многоканальной части расширения могут быть заменены.

Для тех каналов, которые заменяюся в декодере в результате динамического распределения каналов, передаются только соответствующие масштабные коэффициенты и scfsi, без информации о распределении битов и субполосных отсчетов. В результате информация о стереокартине полностью доступна в основных каналах , а в каналах расширения передается только информация, влияющая на локализацию.

Параметр Тху динамического распределения каналов означает, что субполосные отсчеты каналов воспроизведения добавляются согласно приложению Ж ГОСТ Р 54711. Распределение битов и субполосные отсчеты передаются в канале передачи Тх. Масштабные коэффициены и scfsi каналов воспроизведенияя, соответствующих Тх и Ту, должны быть переданы в каналах передачи Тх и Ту. Это позволяет осуществить* передачу информации для управления уровнем обоих каналов воспроизведения. Таблица динамического распределения каналов позволяет реализовать гибкое использование метода кодирования intensity stereo.

________________

* Текст документа соответствует оригиналу. - .

В.2.1.8 Адаптивное многоканальное предсказание

Адаптивное многоканальное предсказание используется для уменьшения межканальной избыточности. При использовании многоканального предсказания сигналы в каналах передачи ...4 предсказываются по совместному сигналу стерео основного потока битов (,). Вместо фактических сигналов в группе субполос передается ошибка предсказания вместе с коэффициентами предсказания и компенсацией задержки.

Возможные уравнения предсказания (все вычисления выполняются от фрейма к фрейму):

Вместо , и передаются сигналы ошибки предсказания

,

,

.

Коэффициенты предсказания pred_coef [sbgr, px, pci] вычисляются так, чтобы минимизировать мощность сигналов ошибки предсказания, тем самым достигается оптимальный уровень сигналов предсказания. Уровень предсказания является отношением энергий исходных сигналов к соответствующим энергиям сигналов ошибки предсказания, выраженный в дБ. Подробное описание этих вычислений дается ниже.

В результате сравнения фактического уровня сигнала предсказания с количеством служебной информации, необходимой для кодирования коэффициентов предсказания, принимается решение о том, для каких групп субполос и для каких сигналов (, , , , и ) будет использоваться предсказание в том или ином аудиофрейме. Для кодирования одного коэффициента предсказания требуется 8 битов, что соответствует уровню сигнала предсказания 1,34 дБ.

Если сигнал ошибки предсказания передается вместо исходного сигнала, значения отношений сигнал-маска, используемые для процедуры распределения битов, должны быть уменьшены на расчетное значение уровня сигнала предсказания. Чтобы предоставить информацию scsfsi, необходимую для распределения битов, должны быть вычислены "предварительные" версии переданных сигналов ошибки предсказания.

Чтобы избежать накопления ошибок квантования, рекомендуется квантовать и деквантовать сигналы , и коэффициенты предсказания до вычисления "окончательных" сигналов ошибки предсказания. Таким образом, сигналы ошибки предсказания в кодере и декодере будут идентичны.

Кодирование переданных сигналов , , , , выполняется как обычно, с использованием "выделения", "SCFSI", "масштабных коэффициентов" и "отсчетов".

Кодирование одного звукового фрейма:

{

- субполосная фильтрация;

- матрицирование;

- вычисление масштабных коэффициентов;

- вычисление SCFSI;

- вычисление отношения сигнал-маска с помощью психоакустической модели;

- выделение канала передачи;

- динамическое распределение канала;

- вычисление компенсации задержки, коэффициентов предсказания и уровня усиления сигнала предсказания;

- вычисление информации о выборе предсказателя (predsi);

- вычисление измененных значений отношения сигнал-маска;

- квантование коэффициентов предсказания;

- вычисление предварительных сигналов ошибки предсказания;

- вычисление масштабных коэффициентов;

- вычисление SCFSI;

- распределение битов (по измененным значениям сигнал-маска);

- квантование субполосных отсчетов;

- деквантование субполосных отсчетов;

- вычисление окончательных сигналов ошибки предсказания (по деквантованным субполосным отсчетам);

- вычисление масштабных коэффициентов;

- вычисление SCFSI;

- квантование субполосных отсчетов;

- форматирование потока битов;

}

Следующее описание в стиле языка является простым примером вычисления предсказания для случая, когда каналы передачи , , содержат , и соответственно. Динамическое распределение каналов не применяется, используется только предсказание нулевого порядка без компенсации задержки. Процедура возвращает коэффициенты coef_0, соеf_1, coef_2, coef_3 и соответствующую информацию о выборе предсказателя predsi[0.. 3].

В данном примере sqr () соответствует операции возведения в степень 2 , a sqrt () соответствует операции извлечения квадратного корня.

Значения coef_0..coef_3:

pred_coef_0 = coef_0;

pred_coef_1 = coef_1;

pred_coef_ = coef_2;

pred_coef_ = coef_3.

В других случаях процедура аналогична:

В.2.1.9 Фантомное кодирование центрального канала

При нехватке битов использование фантомного кодирования центрального канала может обеспечить существенное сокращение данных, незаметное на слух. Сигнал центрального канала подается на ФНЧ и ФВЧ для получения нижней и верхней частей спектра. ВЧ-часть центрального канала ослабляется на 3 дБ и суммируется с левым и правым каналами. Фильтрации и суммированию должны быть подвержены ИКМ-отсчеты во избежание проблем, связанных с наложением в частотной области. Биты центрального канала многоканального потока битов должны быть установлены в '11'. Передаются только информация о распределении битов, информация о выборе масштабных коэффициентов, масштабные коэффициенты и отсчеты нижней части спектра сигнала центрального канала.

В.2.1.10 Распределение битов

Процедура распределения битов аналогична процедуре, используемой в ГОСТ Р 54711, однако теперь она применяется к пяти каналам и опционально к каналу низкой частоты. На Уровне I процедура немного отличается, так как совместная часть требует трехбитовного распределения, в то время как многоканальная часть расширения требует только однобитовного распределения. Простой способ решения этой проблемы состоит в том, чтобы использовать одно распределение битов для каждых трех последовательных базовых фреймов Уровня I и утроить число битов, требуемых для передачи служебных данных и отсчетов. После этой операции данные могут быть обработаны аналогично обработке данных Уровня II. Из общего количества доступных битов должны быть вычтены 2 бита, так как один бит, устанавливаемый в ноль, должен быть вставлен после первых двух из трех последовательных базовых фреймов. Это делается в целях синхронизации в случае канала без передачи данных по фреймам.

В.2.1.11 Многоязычные данные

Кодирование многоязычных каналов может быть выполнено на той же частоте дискретизации, на которой выполняется кодирование совместных и многоканальных данных потока битов, или на половине указанной частоты дискретизации. В последнем случае достигается существенное сокращение данных при кодировании за счет сокращения ширины канала. Если ширина входного сигнала уже ограничена, как в случае с речевыми сигналами, это ограничение ширины канала не окажет никакого влияния на качество.

Если используется полная частота дискретизации, кодирование выполняется согласно ГОСТ Р 54711, за исключением случая мультиплексирования вплоть до семи каналов и невозможности реализации режима кодирования intensity stereo. Если используется половина частоты дискретизации, кодирование выполняется в соответствии с расширением для поддержки меньших частот дискретизации, как описано в В.1.2, за исключением возможности мультиплексирования вплоть до семи каналов, невозможности реализации режима кодирования intensity stereo. Фреймы будут содержать вдвое меньшее количество субполосных отсчетов.

В.2.1.12 Форматирование

Кодированный аудиопоток битов должен быть отформатирован согласно 4.2.3. На Уровне II многоканальные данные расширения должны быть помещены в основной поток битов непосредственно после аудиоданных обратносовместимого сигнала. Оставшиеся биты основного фрейма могут использоваться для дополнительных данных. На Уровне I многоканальные данные расширения состоят в основном из трех частей, распределенных между тремя базовыми фреймами Уровня I. Часть 1 должна начинаться непосредственно после аудиоданных обратносовместимого сигнала и заканчиваться за один бит до следующего синхрослова. Последний бит базового фрейма устанавливается равным нулю. Часть 2 начинается непосредственно после аудиоданных обратносовместимого сигнала следующего базового фрейма и заканчивается за один бит до конца этого базового фрейма. Аналогично, последний бит устанавливается равным нулю. Часть 3 начинается непосредственно после аудиоданных обратносовместимого сигнала следующего базового фрейма и заканчивается за один бит до конца этого базового фрейма. Оставшиеся биты могут использоваться для дополнительных данных. Если требуется больший размер фрейма, чем базовый, дополнительный фрейм расширения может использоваться для распределения битов, не попавших в базовый(е) фрейм(ы).

В.2.2 Многоканальное расширение. Уровень III

В.2.2.1 Психоакустические модели

Две психоакустических модели ГОСТ Р 54711 также действительны и в настоящем стандарте. Для всех пяти каналов и для совместных каналов вычисляются пороговые уровни маскирования для всех полос масштабных коэффициентов. Если кодирование выполняется с матрицированием (то есть dematrix_procedure!='11'), block_types всех каналов должны быть одинаковыми для оптимальной работы системы. Это достигается использованием последовательности переключения окон, описанной в ГОСТ Р 54711, В. 1.5.3.2, ко всем каналам, если условие переключения окна выполняется хотя бы для одного из каналов.

В.2.2.2 Банк фильтров

Используемый банк фильтров такой же, как в ГОСТ Р 54711, то есть полифазный 32-полосный банк фильтров, совмещенный с МДКП субполосных отсчетов и некоторой обработкой для устранения элайзинга. Банк фильтров применяется ко всем пяти каналам в соответствии с block_type, полученным в психоакустической модели.

В.2.2.3 Обработка списков сегментов

Списки сегментов требуются для кодирования в режиме joint stereo, где выход одного канала формируется путем масштабирования данных другого канала. Обработка segment_list возможна при условии, что все каналы используют одинаковый block_type. Это обеспечит кодирование многоканальных сигналов во всех режимах за исключением режима dematrix_procedure=='11'. В этом случае у всех каналов, которые группируются при составном кодировании, должен быть одинаковый block_type.

В то время как синтаксис допускает наличие нескольких сегментов, содержащих различные режимы joint stereo в пределах одного блока, возникает необходимость ограничить использование segment_lists только для одного сегмента на высоких частотах. Это рекомендуемая практика для кодера, описанного здесь.

Кодирование joint stereo выполняется под контролем процедуры обнаружения joint stereo, для определения лучших joint stereo комбинаций каналов. Переменная dematrix_length указывает на разделительную точку между адаптивным дематрицированием и обработкой joint stereo.

Обнаружение joint stereo выполняется для всех возможных значений dematrix_length, от 0 до 14. Dematrix_length устанавливается равной самому низкому индексу dematrix_length, а обнаружение joint stereo показывает ожидаемое сжатие при использовании joint stereo, удовлетворяющее требованиям незаметности искажений на слух.

Обнаруживается joint stereo путем поиска лучшей комбинации joint stereo. Сравниваются моделируемая комбинация joint stereo (, , , , и т.д.) и оригинал. Это сравнение выполняется за счет оценки кратковременных энергий исходных и моделируемых joint stereo сигналов. Если относительное отклонение энергии превышает 0,03, использование joint stereo неоправданно для этой комбинации. Параллельно оценивается степень сокращения скорости передачи, возможного при использовании joint stereo кодирования, с помощью перцепционной энтропии (ре). Выбирается комбинация каналов, обеспечивающая минимальные потери качества, в соответствии с кратковременным энергетическим отношением и одновременно с наибольшим эффектом с точки зрения ре.

Для передачи выбранной joint stereo комбинации один канал используется в качестве транспорта. Этот канал содержит спектральную информацию joint stereo комбинации. Канал транспорта выбирается из всех каналов комбинации как канал с самой высокой энергией.

В.2.2.4 Динамическое переключение канала передачи

Во избежание слышимых артефактов из-за процесса дематрицирования необходимо осуществить правильное распределение канала передачи. Это может быть сделано несколькими способами.

Выбор целого канала для передачи, с несколькими дополнительными битами служебной информации при использовании синтаксиса seglist_present. На Уровне III кодер может выбрать до двух каналов для дематрицирования, устанавливая seglist_present[] в ноль. В этом случае соответствующий tc_present[] может быть установлен в ноль, показывая, что дальнейшая служебная информация для соответствующего ТС не передается.

Для лучшего контроля над конфигурацией дематрицирования каналы передачи могут быть выбраны на основе группы полос масштабных коэффициентов. Это возможно при использовании синтаксиса dematrix_select. Для групп полос масштабных коэффициентов выше dematrix_length достигается тот же эффект путем выбора значения tc_select == 7 для соответствующего сегмента.

Процесс выбора может быть основан на следующем критерии. Возможность маскирования в каждом канале определяется с помощью психоакустической модели, как в MPEG-1, Уровень III. Из всех каналов выбираются два с максимальными маскирующими свойствами для восстановления с помощью дематрицирования и, таким образом, не должны быть переданы. Если один из каналов является центральным каналом и вычисленные пороги маскирования отличаются более чем на 6 дБ, для дематрицирования выбирается только один канал с самыми большими маскирующими свойствами.

В.2.2.5 Матрицирование

Совместные стереосигналы образуются из многоканальных сигналов следующим образом:

процедура 0, 1, 3 - , ;

процедура 2 - , ,

где образуется из и путем вычисления монокомпоненты, ограничения ширины канала до диапазона 100-7000 Гц, сжатия динамического диапазона и сдвига фазы на 90 градусов; - общая аттенюация для всех каналов, и - коэффициенты аттенюации сигналов центрального канала и каналов окружения.

Значения коэффициента аттенюации определены для каждой процедуры дематрицирования:

dematrix_procedure

'00'

'01'

0,5

'10'

'11'

1

0

0

Следует отметить, что, в отличие от Уровней I и II, вся обработка многоканальных сигналов , , , , , выполняется без взвешивания.

В.2.2.6 Адаптивное многоканальное предсказание

Адаптивное многоканальное предсказание, используемое на Уровне III при многоканальном кодировании, аналогично предсказанию на Уровнях I и II, за исключением того, что процедура предсказания применяется к выходным значениям гибридного банка фильтров.

В.2.2.7 Квантование и кодирование

Для последующего кодирования выходные данные всех пяти входных каналов и двух совместных каналов преобразуются в ТС данные. Это выполняется путем устранения из спектров каналов на выходе банка фильтров всех спектральных составляющих, которые не должны быть переданы. Возможны два случая, когда спектральные составляющие исключаются из передачи.

1 Спектральные составляющие, которые будут восстановлены в декодере с использованием дематрицирования, будут исключены из передачи в ТС. Это выполняется в соответствии с результатами динамического переключения канала передачи.

2 При использовании joint stereo кодирования в ТС передается только транспортная часть. Все другие данные канала будут восстановлены в декодере в результате обработки joint stereo с использованием синтаксиса списка сегментов.

После формирования данных ТС эти данные квантуются аналогично квантованию спектральных данных Уровня III с использованием итеративной стратегии, описанной в ГОСТ Р 54711. Пороговые значения для соответствующего канала и полосы масштабных коэффициентов, вычисленные в психоакустической модели, используются в качестве итеративной цели. Более сложные стратегии кодирования могут включать в себя модификацию итеративных целей согласно расчетным уровням порогов маскирования других каналов.

Распределение битов между кодированными ТС выполняется в соответствии с относительным вкладом с точки зрения перцепционной энтропии (ре) следующим образом:

,

где tc_bits - распределенные биты для TC #ch, - общая перцепционная энтропия канала i, и total_bits - общее доступное количество битов для гранулы, зависящее от скорости передачи и частоты дискретизации.

В.2.2.8 Многоязычные расширения

Кодирование выполняется в зависимости от выбранного multi_lingual_fs, как описано в ГОСТ Р 54711, или с модификациями, описанными в В.1.3.

Приложение Г
(обязательное)

Психоакустические модели

Г.1 Психоакустическая модель 1 для меньших частот дискретизации

Ниже приводится описание психоакустической модели 1 с адаптацией, необходимой для поддержки меньших частот дискретизации.

Вычисление психоакустической модели должно быть адаптировано к соответствующему уровню.

Нет принципиальных отличий в использовании психоакустической модели 1 на Уровнях I или II.

На уровне I новое распределение битов вычисляется для каждого блока из 12 субполосных отсчетов или 384 ИКМ-отсчетов.

На Уровне II новое распределение битов вычисляется для трех блоков [всего 36 субполосных отсчетов, соответствующих 3*384 (1152) входным ИКМ-отсчетам].

Распределение битов между 32 субполосами выполняется на основе отношений сигнал-маска во всех субполосах. Поэтому для каждой субполосы необходимо отпределить максимальный уровень сигнала и минимальный уровень порога маскирования. Минимальный порог маскирования определяется в результате психоакустического расчета на основе БПФ входного ИКМ-сигнала.

БПФ, выполняемое параллельно с субполосной фильтрацией, компенсирует недостаточную частотную селективность на низких частотах субполосного банка фильтров. Этот метод позволяет достичь достаточного разрешения во временной области для кодированного аудиосигнала (полифазный фильтр с оптимизированным окном для минимального преэха) и достаточного разрешения по частоте для вычисления порогов маскирования. Частоты и уровни шумов могут быть вычислены при наложении спектров, это необходимо для определения минимальной скорости передачи для тех субполос, которым требуются некоторые бите для устранения компонентов элайзинга в декодере. Дополнительное усложнение для вычисления оптимальной разрешающей способности по частоте необходимо только в кодере и не вызывает дополнительной задержки или усложнения декодера.

Вычисление отношения сигнал-маска основано на следующих процедурах:

шаг 1 - вычисление БПФ для преобразования сигнала из временного пространства в частотное;

шаг 2 - определение уровня звукового давления в каждой субполосе;

шаг 3 - определение абсолютного порога слышимости;

шаг 4 - обнаружение тональных (близких к синусоиде) и нетональных (близких к шуму) компонент аудиосигнала;

шаг 5 - прореживание маскеров для получения релевантных маскеров;

шаг 6 - вычисление индивидуальных порогов маскирования;

шаг 7 - определение глобального порога маскирования;

шаг 8 - определение минимального порога маскирования в каждой субполосе;

шаг 9 - вычисление отношения сигнал-маска в каждой субполосе.

Частота дискретизации по умолчанию равна 24 кГц. Для других двух частот дискретизации все упомянутые частоты должны измениться соответственным образом.

Шаг 1. Вычисление спектра.

БПФ по своему принципу аналогично используемому в ГОСТ Р 54711, но из-за различия частот дискретизации длины преобразования в мс также различны.

Технические данные БПФ:

Параметры

Уровень I

Уровень II

Длина преобразования

512 отсчетов

1024 отсчета

Размер окна при 24 кГц

21,33 мс

42,67 мс

Размер окна при 22,05 кГц

23,22 мс

46,44 мс

Размер окна при 16 кГц

32 мс

64 мс

Частотное разрешение

/512

/1024

Окно Хана

, 0

Спектральная плотность мощности

, дБ ,

где - входной сигнал.

Нормализация к контрольному уровню 96 дБ звукового давления (уровень звукового давления) должна быть сделана так, чтобы максимальное значение соответствовало 96 дБ.

Шаг 2. Определение уровня звукового давления.

Уровень звукового давления в субполосе вычисляется по формуле

, дБ.

в субполосе - уровень звукового давления спектральной линии БПФ с индексом с максимальной амплитудой в частотном диапазоне, соответствующем субполосе ; - масштабный коэффициент (Уровень I) или максимум из трех масштабных коэффициентов (Уровень II) субполосы фрейма.

Уменьшение на 10 дБ исправляет различие между RMS и пиковым уровнем. Уровень звукового давления вычисляется для каждой субполосы .

Альтернативный метод вычисления позволяет достичь лучшей производительности кодера, однако он не был подвергнут формальному тесту на качество звука.

Уровень звукового давления в субполосе вычисляется по формуле

, дБ,


, дБ, в субполосе ,

где - уровень звукового давления в субполосе .

Шаг 3. Распределение абсолютного порога слышимости.

Значения абсолютного порога слышимости приведены в таблицах Г.1а, Г.1б, Г.1в для Уровня I и в таблицах Г.1г, Г.1д, Г.1е для Уровня II. Данные зависят от частоты дискретизации входного ИКМ-сигнала. Значения заданы для каждой спектральной линии.

Шаг 4. Обнаружение тональных и нетональных компонентов аудиосигнала.

Тональность компонента маскирования имеет влияние на порог маскирования. Поэтому следует различать тональные и нетональные компоненты. Для вычисления глобального порога маскирования необходимо обнаружить в БПФ спектре тональные и нетональные компоненты.

Этот шаг начинается с определения локальных максимумов, из которых выявляются тональные компоненты (синусоиды) и вычисляется интенсивность нетональных компонентов в пределах ширины критической полосы. Границы критических полос даны в таблицах Г.2а, Г.2б, Г.2в для Уровня I и в таблицах Г.2г, Г.2д, Г.2е для Уровня II.

Ширина критических полос меняется в зависимости от центральной частоты, начиная приблизительно с 0,1 кГц на нижних частотах и до 4 кГц на верхних частотах. Из психоакустических экспериментов известно, что слуховой анализатор обладает лучшей разрешающей способностью по частоте в низкочастотной части спектра. Чтобы определить, может ли локальный максимум быть тональным компонентом, анализируется частотный диапазон вокруг локального максимума. Частотный диапазон задается следующим образом.

Частота дискретизации 16 кГц

62,5 Гц

0 кГц3,0 кГц

93,75 Гц

3,0 кГц6,0 кГц

187,5 Гц

6,0 кГц7,5 кГц

Частота дискретизации 22,05 кГц

86,133 Гц

0 кГц2,756 Гц

129,199 Гц

2,756 Гц5,512 Гц

258,398 Гц

5,512 Гц10,336 Гц

Частота дискретизации 24 кГц

93,750 Гц

0 кГц3,0 кГц

140,63 Гц

3,0 кГц6,0 кГц

281,25 Гц

6,0 кГц11,250 кГц

Для помещения спектральной линии в список тональных или нетональных маскеров выполняются следующие три операции.

1 Маркировка локальных максимумов:

спектральная линия маркируется как локальный максимум, если

и .

2 Внесение в список тональных компонентов и вычисление уровня звукового давления:

- локальный максимум помещается в список тональных компонентов, если

дБ,

где выбирается в соответствии со следующими правилами:

Уровень I, 16 кГц:

-2, +2

для 296

-3, -2, +2, +3

для 96192

-6..., -2, +2..., +6

для 192250

Уровень II, 16 кГц:

-4, +4

для 4192

-6..., -2, +2..., +6

для 192384

-12..., -2, +2..., +12

для 384500

Уровень I, 22,05, 24 кГц:

-2, +2

для 264

-3, -2, +2, +3

для 64128

-6..., -2, +2..., +6

для 128250

Уровень II, 22,05, 24 кГц:

-4, +4

для 4128

-6... -2, +2..., +6

для 128256

-12..., -2, +2..., +12

для 256500

Если является тональным компонентом, вычисляются следующие параметры:

а) индекс спектральной линии;

б) уровень звукового давления дБ;

в) тональный флаг.

Затем уровень звукового давления всех спектральных линий в пределах исследованного частотного диапазона устанавливается в - дБ.

3 Внесение в список нетональных компонентов и вычисление их мощности

Нетональные (шумовые) компоненты вычисляются по оставшимся спектральным линиям.

С целью обнаружения нетональных компонентов среди спектральных линий определяются критические полосы в соответствии с таблицами Г.2а, Г.2б, Г.2в для Уровня I и с таблицами Г.2г, Г.2д, Г.2е для Уровня II. 21 критическая полоса используется для частоты дискретизации 16 кГц, 23 критических полосы используются для 22,05 кГц и 24кГц. В пределах каждой критической полосы мощности спектральных линий, оставшихся после обнуления тональных компонентов, суммируются для получения значения уровня звукового давления нового нетонального компонента , соответствующего этой критической полосе.

Вычисляются следующие параметры:

- индекс спектральной линии, наиболее близкой к среднему геометрическому критической полосы;

- уровень звукового давления в дБ;

- нетональный флаг.

Шаг 5. Прореживание маскеров для получения релевантных маскеров.

Прореживание осуществляется для сокращения количества маскеров, которые рассматривают при вычислении глобального порога маскирования.

Тональные или нетональные компоненты рассматривают при вычислении порога маскирования, только если

или ,

где является значением абсолютного порога слышимости на частоте индекса (см. таблицы Г.1а, Г.1б, Г.1в для Уровня I и таблицы Г.1г, Г.1д, Г.1е для Уровня II).

При прореживании двух или более тональных компонентов в пределах расстояния менее 0,5 барк остается только компонент с наибольшей мощностью, остальные компоненты удаляются из списка тональных компонентов. Для этого используется скользящее окно шириной 0,5 барк.

Индекс используется для указания на релевантные тональные или нетональные компоненты маскирования в объединенном прореженном списке.

Шаг 6. Вычисление индивидуальных порогов маскирования.

Из исходных спектральных линий , только подмножество линий используется для расчета глобального порога маскирования. Используемые линии даны в таблицах Г.1а, Г.1б, Г.1в для Уровня I и в таблицах Г.1г, Г.1д, Г.1е для Уровня II.

Уровень I

Для спектральных линий, соответствующих области частоты, которая покрывается первыми шестью субполосами, не учитывается уменьшение линий. Для области частоты, соответствующей следующим шести субполосам, рассматривают каждую вторую спектральную линию. Наконец, каждую четвертую спектральную линию рассматривают для следующих 18 субполос (см. таблицы Г.1а, Г.1б, Г.1в для Уровня I).

Уровень II

Для спектральных линий, соответствующих области частоты, которая покрывается первыми тремя субполосами, не учитывается уменьшение линий. Для области частоты, соответствующей следующим трем субполосам, рассматривают каждую вторую спектральную линию. Для области частоты, соответствующей следующим шести субполосам, рассматривают каждую четвертую спектральную линию. Наконец, каждую восьмую спектральную линию рассматривают для следующих 18 субполос (см. таблицы Г.1г, Г.1д, Г.1е для Уровня II).

Число линий в прореженной частотной области зависит от Уровня. Для Уровня I 108, для Уровня II 132.

Каждому тональному и нетональному компоненту присваивается значение индекса , который наиболее близок к частоте исходной спектральной линии . Индекс приведен в таблицах Г.1а, Г.1б, Г.1в для Уровня I и в таблицах Г.1г, Г.1д, Г1е для Уровня II.

Индивидуальные пороги маскирования тональных и нетональных компонентов определяются следующим выражением в дБ:


,

,

где и - индивидуальные пороги маскирования на частоте , барк, тональных и нетональных компонентов соответственно, значения в дБ могут быть либо положительными, либо отрицательными; - уровень звукового давления компонента маскирования соответствующей частоты ; - индекс маскирования для тональных и нетональных маскеров; - функция маскирования компонента маскирования .

Для тональных маскеров

,

для нетональных маскеров

.

Функция маскирования характеризуется различными спадами в направлении нижних и верхних частот, которые зависят от расстояния в барках до маскера.

, где - индекс спектральной линии, для которой вычисляется значение функции маскирования; - индекс спектральной линии, соответствующей маскеру. Значения и в барках могут быть найдены в таблицах Г.1а, Г.1б, Г.1в для Уровня I и в таблицах Г.1г, Г.1д, Г.1е для Уровня II.

Функция маскирования, одинаковая для тональных и нетональных маскеров, определяется по формулам (в дБ):

-3-1 барк

-10 барк

,

-01 барк

-18 барк

В этих выражениях - уровень звукового давления -го маскера в дБ. По причинам сложности реализации маскирование при -3 барк и 8 барк не учитывается (вне этого диапазона и устанавливаются в - дБ).

Шаг 7. Вычисление глобального порога маскирования

Глобальный порог маскирования для -й спектральной линии получается из индивидуальных порогов маскирования каждого из тональных и нетональных маскеров и абсолютного порога слышимости (см. таблицы Г.1а, Г.1б, Г.1в для Уровня I и Г.1г, Г.1д, Г.1е для Уровня II). Глобальный порог маскирования определяется суммированием мощностей, соответствующих индивидуальным порогам маскирования и абсолютному порогу слышимости.

,

где - общее количество тональных маскеров, - общее количество нетональных маскеров.

Для заданного диапазон может быть уменьшен, чтобы охватить только те маскируемые компоненты, которые находятся в пределах от -8 до +3 барк от . За пределами этого диапазона и - дБ.

Шаг 8. Определение минимального порога маскирования в каждой субполосе.

Минимальный уровень маскирования в субполосе определяется следующим выражением:

дБ, в субполосе ,

где - частота -й спектральной линии.

Значения табулированы в таблицах Г.1а, Г.1б, Г.1в для Уровня I и в таблицах Г.1г, Г.1д, Г.1е для Уровня II. Минимальный уровень маскирования вычисляется для каждой субполосы.

Шаг 9. Вычисление отношения сигнал-маска в каждой субполосе.

Отношение сигнал-маска

, дБ,

вычисляется для каждой субполосы .

Таблица Г.1 - Частоты и значения абсолютного порога слышимости

Таблица Г.1а - Частота дискретизации 16 кГц. Уровень I

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

31,25

0,309

58,23

2

62,50

0,617

33,44

3

93,75

0,925

24,17

4

125,00

1,232

19,20

5

156,25

1,538

16,05

6

187,50

1,842

13,87

7

218,75

2,145

12,26

8

250,00

2,445

11,01

9

281,25

2,742

10,01

10

312,50

3,037

9,20

11

343,75

3,329

8,52

12

375,00

3,618

7,94

13

406,25

3,903

7,44

14

437,50

4,185

7,00

15

468,75

4,463

6,62

16

500,00

4,736

6,28

17

531,25

5,006

5,97

18

562,50

5,272

5,70

19

593,75

5,533

5,44

20

625,00

5,789

5,21

21

656,25

6,041

5,00

22

687,50

6,289

4,80

23

718,75

6,532

4,62

24

750,00

6,770

4,45

25

781,25

7,004

4,29

26

812,50

7,233

4,14

27

843,75

7,457

4,00

28

875,00

7,677

3,86

29

906,25

7,892

3,73

30

937,50

8,103

3,61

31

968,75

8,309

3,49

32

1000,00

8,511

3,37

33

1031,25

8,708

3,26

34

1062,50

8,901

3,15

35

1093,75

9,090

3,04

36

1125,00

9,275

2,93

37

1156,25

9,456

2,83

38

1187,50

9,632

2,73

39

1218,75

9,805

2,63

40

1250,00

9,974

2,53

41

1281,25

10,139

2,42

42

1312,50

10,301

2,32

43

1343,75

10,459

2,22

44

1375,00

10,614

2,12

45

1406,25

10,765

2,02

46

1437,50

10,913

1,92

47

1468,75

11,058

1,81

48

1500,00

11,199

1,71

49

1562,50

11,474

1,49

50

1625,00

11,736

1,27

51

1687,50

11,988

1,04

52

1750,00

12,230

0,80

53

1812,50

12,461

0,55

54

1875,00

12,684

0,29

55

1937,50

12,898

0,02

56

2000,00

13,104

-0,25

57

2062,50

13,302

-0,54

58

2125,00

13,493

-0,83

59

2187,50

13,678

-1,12

60

2250,00

13,855

-1,43

61

2312,50

14,027

-1,73

62

2375,00

14,193

-2,04

63

2437,50

14,354

-2,34

64

2500,00

14,509

-2,64

65

2562,50

14,660

-2,93

66

2625,00

14,807

-3,22

67

2687,50

14,949

-3,49

68

2750,00

15,087

-3,74

69

2812,50

15,221

-3,98

70

2875,00

15,351

-4,20

71

2937,50

15,478

-4,40

72

3000,00

15,602

-4,57

73

3125,00

15,841

-4,82

74

3250,00

16,069

-4,96

75

3375,00

16,287

-4,98

76

3500,00

16,496

-4,90

77

3625,00

16,697

-4,70

78

3750,00

16,891

-4,39

79

3875,00

17,078

-3,99

80

4000,00

17,259

-3,51

81

4125,00

17,434

-2,99

82

4250,00

17,605

-2,45

83

4375,00

17,770

-1,90

84

4500,00

17,932

-1,37

85

4625,00

18,089

-0,86

86

4750,00

18,242

-0,39

87

4875,00

18,392

0,03

88

5000,00

18,539

0,40

89

5125,00

18,682

0,72

90

5250,00

18,823

1,00

91

5375,00

18,960

1,24

92

5500,00

19,095

1,44

93

5625,00

19,226

1,62

94

5750,00

19,356

1,78

95

5875,00

19,482

1,92

96

6000,00

19,606

2,05

97

6125,00

19,728

2,18

98

6250,00

19,847

2,30

99

6375,00

19,964

2,42

100

6500,00

20,079

2,55

101

6625,00

20,191

2,69

102

6750,00

20,300

2,82

103

6875,00

20,408

2,97

104

7000,00

20,513

3,13

105

7125,00

20,616

3,29

106

7250,00

20,717

3,46

107

7375,00

20,815

3,65

108

7500,00

20,912

3,84

Таблица Г.1б - Частота дискретизации 22,05 кГц. Уровень I

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

43,07

0,425

45,05

2

86,13

0,850

25,87

3

129,20

1,273

18,70

4

172,27

1,694

14,85

5

215,33

2,112

12,41

6

258,40

2,525

10,72

7

301,46

2,934

9,47

8

344,53

3,337

8,50

9

387,60

3,733

7,73

10

430,66

4,124

7,10

11

473,73

4,507

6,56

12

516,80

4,882

6,11

13

559,86

5,249

5,72

14

602,93

5,608

5,37

15

646,00

5,959

5,07

16

689,06

6,301

4,79

17

732,13

6,634

4,55

18

775,20

6,959

4,32

19

818,26

7,274

4,11

20

861,33

7,581

3,92

21

904,39

7,879

3,74

22

947,46

8,169

3,57

23

990,53

8,450

3,40

24

1033,59

8,723

3,25

25

1076,66

8,987

3,10

26

1119,73

9,244

2,95

27

1162,79

9,493

2,81

28

1205,86

9,734

2,67

29

1248,93

9,968

2,53

30

1291,99

10,195

2,39

31

1335,06

10,416

2,25

32

1378,13

10,629

2,11

33

1421,19

10,836

1,97

34

1464,26

11,037

1,83

35

1507,32

11,232

1,68

36

1550,39

11,421

1,53

37

1593,46

11,605

1,38

38

1636,52

11,783

1,23

39

1679,59

11,957

1,07

40

1722,66

12,125

0,90

41

1765,72

12,289

0,74

42

1808,79

12,448

0,56

43

1851,86

12,603

0,39

44

1894,92

12,753

0,21

45

1937,99

12,900

0,02

46

1981,05

13,042

-0,17

47

2024,12

13,181

-0,36

48

2067,19

13,317

-0,56

49

2153,32

13,578

-0,96

50

2239,45

13,826

-1,38

51

2325,59

14,062

-1,79

52

2411,72

14,288

-2,21

53

2497,85

14,504

-2,63

54

2583,98

14,711

-3,03

55

2670,12

14,909

-3,41

56

2756,25

15,100

-3,77

57

2842,38

15,284

-4,09

58

2928,52

15,460

-4,37

59

3014,65

15,631

-4,60

60

3100,78

15,796

-4,78

61

3186,91

15,955

-4,91

62

3273,05

16,110

-4,97

63

3359,18

16,260

-4,98

64

3445,31

16,406

-4,96

65

3531,45

16,547

-4,88

66

3617,58

16,685

-4,74

67

3703,71

16,820

-4,54

68

3789,84

16,951

-4,30

69

3875,98

17,079

-4,02

70

3962,11

17,205

-3,71

71

4048,24

17,327

-3,37

72

4134,38

17,447

-3,00

73

4306,64

17,680

-2,25

74

4478,91

17,905

-1,50

75

4651,17

18,121

-0,81

76

4823,44

18,331

-0,18

77

4995,70

18,534

0,35

78

5167,97

18,731

0,79

79

5340,23

18,922

1,15

80

5512,50

19,108

1,44

81

5684,77

19,289

1,68

82

5857,03

19,464

1,89

83

6029,30

19,635

2,07

84

6201,56

19,801

2,24

85

6373,83

19,963

2,41

86

6546,09

20,120

2,59

87

6718,36

20,273

2,78

88

6890,63

20,421

2,98

89

7062,89

20,565

3,19

90

7235,16

20,705

3,43

91

7407,42

20,840

3,68

92

7579,69

20,972

3,95

93

7751,95

21,099

4,24

94

7924,22

21,222

4,56

95

8096,48

21,342

4,89

96

8268,75

21,457

5,25

97

8441,02

21,569

5,64

98

8613,28

21,677

6,05

99

8785,55

21,781

6,48

100

8957,81

21,882

6,95

101

9130,08

21,980

7,44

102

9302,34

22,074

7,96

103

9474,61

22,165

8,52

104

9646,88

22,253

9,10

105

9819,14

22,338

9,72

106

9991,41

22,420

10,37

107

10163,67

22,499

11,06

108

10335,94

22,576

11,79

Таблица Г.1в - Частота дискретизации 24 кГц. Уровень I

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

46,88

0,463

42,10

2

93,75

0,925

24,17

3

140,63

1,385

17,47

4

187,50

1,842

13,87

5

234,38

2,295

11,60

6

281,25

2,742

10,01

7

328,13

3,184

8,84

8

375,00

3,618

7,94

9

421,88

4,045

7,22

10

468,75

4,463

6,62

11

515,63

4,872

6,12

12

562,50

5,272

5,70

13

609,38

5,661

5,33

14

656,25

6,041

5,00

15

703,13

6,411

4,71

16

750,00

6,770

4,45

17

796,88

7,119

4,21

18

843,75

7,457

4,00

19

890,63

7,785

3,79

20

937,50

8,103

3,61

21

984,38

8,410

3,43

22

1031,25

8,708

3,26

23

1078,13

8,996

3,09

24

1125,00

9,275

2,93

25

1171,88

9,544

2,78

26

1218,75

9,805

2,63

27

1265,63

10,057

2,47

28

1312,50

10,301

2,32

29

1359,38

10,537

2,17

30

1406,25

10,765

2,02

31

1453,13

10,986

1,86

32

1500,00

11,199

1,71

33

1546,88

11,406

1,55

34

1593,75

11,606

1,38

35

1640,63

11,800

1,21

36

1687,50

11,988

1,04

37

1734,38

12,170

0,86

38

1781,25

12,347

0,67

39

1828,13

12,518

0,49

40

1875,00

12,684

0,29

41

1921,88

12,845

0,09

42

1968,75

13,002

-0,11

43

2015,63

13,154

-0,32

44

2062,50

13,302

-0,54

45

2109,38

13,446

-0,75

46

2156,25

13,586

-0,97

47

2203,13

13,723

-1,20

48

2250,00

13,855

-1,43

49

2343,75

14,111

-1,88

50

2437,50

14,354

-2,34

51

2531,25

14,585

-2,79

52

2625,00

14,807

-3,22

53

2718,75

15,018

-3,62

54

2812,50

15,221

-3,98

55

2906,25

15,415

-4,30

56

3000,00

15,602

-4,57

57

3093,75

15,783

-4,77

58

3187,50

15,956

-4,91

59

3281,25

16,124

-4,98

60

3375,00

16,287

-4,98

61

3468,75

16,445

-4,94

62

3562,50

16,598

-4,84

63

3656,25

16,746

-4,66

64

3750,00

16,891

-4,43

65

3843,75

17,032

-4,15

66

3937,50

17,169

-3,82

67

4031,25

17,303

-3,45

68

4125,00

17,434

-3,06

69

4218,75

17,563

-2,66

70

4312,50

17,688

-2,24

71

4406,25

17,811

-1,83

72

4500,00

17,932

-1,43

73

4687,50

18,166

-0,68

74

4875,00

18,392

-0,02

75

5062,50

18,611

0,52

76

5250,00

18,823

0,97

77

5437,50

19,028

1,32

78

5625,00

19,226

1,60

79

5812,50

19,419

1,83

80

6000,00

19,606

2,03

81

6187,50

19,788

2,22

82

6375,00

19,964

2,41

83

6562,50

20,135

2,60

84

6750,00

20,300

2,81

85

6937,50

20,461

3,03

86

7125,00

20,616

3,27

87

7312,50

20,766

3,53

88

7500,00

20,912

3,82

89

7687,50

21,052

4,12

90

7875,00

21,188

4,46

91

8062,50

21,318

4,82

92

8250,00

21,445

5,20

93

8437,50

21,567

5,62

94

8625,00

21,684

6,07

95

8812,50

21,797

6,54

96

9000,00

21,906

7,06

97

9187,50

22,012

7,60

98

9375,00

22,113

8,18

99

9562,50

22,210

8,80

100

9750,00

22,304

9,46

101

9937,50

22,395

10,15

102

10125,00

22,482

10,89

103

10312,50

22,566

11,67

104

10500,00

22,646

12,50

105

10687,50

22,724

13,37

106

10875,00

22,799

14,29

107

11062,50

22,871

15,26

108

11250,00

22,941

16,28

Таблица Г.1г - Частота дискретизации 16 кГц. Уровень II

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

15,63

0,154

68,00

2

31,25

0,309

58,23

3

46,88

0,463

42,10

4

62,50

0,617

33,44

5

78,13

0,771

27,97

6

93,75

0,925

24,17

7

109,38

1,079

21,36

8

125,00

1,232

19,20

9

140,63

1,385

17,47

10

156,25

1,538

16,05

11

171,88

1,690

14,87

12

187,50

1,842

13,87

13

203,13

1,994

13,01

14

218,75

2,145

12,26

15

234,38

2,295

11,60

16

250,00

2,445

11,01

17

265,63

2,594

10,49

18

281,25

2,742

10,01

19

296,88

2,890

9,59

20

312,50

3,037

9,20

21

328,13

3,184

8,84

22

343,75

3,329

8,52

23

359,38

3,474

8,22

24

375,00

3,618

7,94

25

390,63

3,761

7,68

26

406,25

3,903

7,44

27

421,88

4,045

7,22

28

437,50

4,185

7,00

29

453,13

4,324

6,81

30

468,75

4,463

6,62

31

484,38

4,600

6,44

32

500,00

4,736

6,28

33

515,63

4,872

6,12

34

531,25

5,006

5,97

35

546,88

5,139

5,83

36

562,50

5,272

5,70

37

578,13

5,403

5,57

38

593,75

5,533

5,44

39

609,38

5,661

5,33

40

625,00

5,789

5,21

41

640,63

5,916

5,10

42

656,25

6,041

5,00

43

671,88

6,166

4,90

44

687,50

6,289

4,80

45

703,13

6,411

4,71

46

718,75

6,532

4,62

47

734,38

6,651

4,53

48

750,00

6,770

4,45

49

781,25

7,004

4,29

50

812,50

7,233

4,14

51

843,75

7,457

4,00

52

875,00

7,677

3,86

53

906,25

7,892

3,73

54

937,50

8,103

3,61

55

968,75

8,309

3,49

56

1000,00

8,511

3,37

57

1031,25

8,708

3,26

58

1062,50

8,901

3,15

59

1093,75

9,090

3,04

60

1125,00

9,275

2,93

61

1156,25

9,456

2,83

62

1187,50

9,632

2,73

63

1218,75

9,805

2,63

64

1250,00

9,974

2,53

65

1281,25

10,139

2,42

66

1312,50

10,301

2,32

67

1343,75

10,459

2,22

68

1375,00

10,614

2,12

69

1406,25

10,765

2,02

70

1437,50

10,913

1,92

71

1468,75

11,058

1,81

72

1500,00

11,199

1,71

73

1562,50

11,474

1,49

74

1625,00

11,736

1,27

75

1687,50

11,988

1,04

76

1750,00

12,230

0,80

77

1812,50

12,461

0,55

78

1875,00

12,684

0,29

79

1937,50

12,898

0,02

80

2000,00

13,104

-0,25

81

2062,50

13,302

-0,54

82

2125,00

13,493

-0,83

83

2187,50

13,678

-1,12

84

2250,00

13,855

-1,43

85

2312,50

14,027

-1,73

86

2375,00

14,193

-2,04

87

2437,50

14,354

-2,34

88

2500,00

14,509

-2,64

89

2562,50

14,660

-2,93

90

2625,00

14,807

-3,22

91

2687,50

14,949

-3,49

92

2750,00

15,087

-3,74

93

2812,50

15,221

-3,98

94

2875,00

15,351

-4,20

95

2937,50

15,478

-4,40

96

3000,00

15,602

-4,57

97

3125,00

15,841

-4,82

98

3250,00

16,069

-4,96

99

3375,00

16,287

-4,98

100

3500,00

16,496

-4,88

101

3625,00

16,697

-4,66

102

3750,00

16,891

-4,34

103

3875,00

17,078

-3,93

104

4000,00

17,259

-3,45

105

4125,00

17,434

-2,93

106

4250,00

17,605

-2,38

107

4375,00

17,770

-1,83

108

4500,00

17,932

-1,30

109

4625,00

18,089

-0,80

110

4750,00

18,242

-0,34

111

4875,00

18,392

0,07

112

5000,00

18,539

0,44

113

5125,00

18,682

0,76

114

5250,00

18,823

1,03

115

5375,00

18,960

1,26

116

5500,00

19,095

1,47

117

5625,00

19,226

1,64

118

5750,00

19,356

1,80

119

5875,00

19,482

1,94

120

6000,00

19,606

2,07

121

6125,00

19,728

2,19

122

6250,00

19,847

2,32

123

6375,00

19,964

2,44

124

6500,00

20,079

2,57

125

6625,00

20,191

2,70

126

6750,00

20,300

2,84

127

6875,00

20,408

2,99

128

7000,00

20,513

3,15

129

7125,00

20,616

3,31

130

7250,00

20,717

3,49

131

7375,00

20,815

3,67

132

7500,00

20,912

3,87

Таблица Г.1д - Частота дискретизации 22,05 кГц. Уровень II

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

21,53

0,213

68,00

2

43,07

0,425

45,05

3

64,60

0,638

32,57

4

86,13

0,850

25,87

5

107,67

1,062

21,63

6

129,20

1,273

18,70

7

150,73

1,484

16,52

8

172,27

1,694

14,85

9

193,80

1,903

13,51

10

215,33

2,112

12,41

11

236,87

2,319

11,50

12

258,40

2,525

10,72

13

279,93

2,730

10,05

14

301,46

2,934

9,47

15

323,00

3,136

8,96

16

344,53

3,337

8,50

17

366,06

3,536

8,10

18

387,60

3,733

7,73

19

409,13

3,929

7,40

20

430,66

4,124

7,10

21

452,20

4,316

6,82

22

473,73

4,507

6,56

23

495,26

4,695

6,33

24

516,80

4,882

6,11

25

538,33

5,067

5,91

26

559,86

5,249

5,72

27

581,40

5,430

5,54

28

602,93

5,608

5,37

29

624,46

5,785

5,22

30

646,00

5,959

5,07

31

667,53

6,131

4,93

32

689,06

6,301

4,79

33

710,60

6,469

4,67

34

732,13

6,634

4,55

35

753,66

6,798

4,43

36

775,20

6,959

4,32

37

796,73

7,118

4,21

38

818,26

7,274

4,11

39

839,79

7,429

4,01

40

861,33

7,581

3,92

41

882,86

7,731

3,83

42

904,39

7,879

3,74

43

925,93

8,025

3,65

44

947,46

8,169

3,57

45

968,99

8,310

3,48

46

990,53

8,450

3,40

47

1012,06

8,587

3,33

48

1033,59

8,723

3,25

49

1076,66

8,987

3,10

50

1119,73

9,244

2,95

51

1162,79

9,493

2,81

52

1205,86

9,734

2,67

53

1248,93

9,968

2,53

54

1291,99

10,195

2,39

55

1335,06

10,416

2,25

56

1378,13

10,629

2,11

57

1421,19

10,836

1,97

58

1464,26

11,037

1,83

59

1507,32

11,232

1,68

60

1550,39

11,421

1,53

61

1593,46

11,605

1,38

62

1636,52

11,783

1,23

63

1679,59

11,957

1,07

64

1722,66

12,125

0,90

65

1765,72

12,289

0,74

66

1808,79

12,448

0,56

67

1851,86

12,603

0,39

68

1894,92

12,753

0,21

69

1937,99

12,900

0,02

70

1981,05

13,042

-0,17

71

2024,12

13,181

-0,36

72

2067,19

13,317

-0,56

73

2153,32

13,578

-0,96

74

2239,45

13,826

-1,38

75

2325,59

14,062

-1,79

76

2411,72

14,288

-2,21

77

2497,85

14,504

-2,63

78

2583,98

14,711

-3,03

79

2670,12

14,909

-3,41

80

2756,25

15,100

-3,77

81

2842,38

15,284

-4,09

82

2928,52

15,460

-4,37

83

3014,65

15,631

-4,60

84

3100,78

15,796

-4,78

85

3186,91

15,955

-4,91

86

3273,05

16,110

-4,97

87

3359,18

16,260

-4,98

88

3445,31

16,406

-4,94

89

3531,45

16,547

-4,85

90

3617,58

16,685

-4,69

91

3703,71

16,820

-4,49

92

3789,84

16,951

-4,24

93

3875,98

17,079

-3,95

94

3962,11

17,205

-3,63

95

4048,24

17,327

-3,28

96

4134,38

17,447

-2,91

97

4306,64

17,680

-2,16

98

4478,91

17,905

-1,41

99

4651,17

18,121

-0,72

100

4823,44

18,331

-0,11

101

4995,70

18,534

0,41

102

5167,97

18,731

0,84

103

5340,23

18,922

1,19

104

5512,50

19,108

1,48

105

5684,77

19,289

1,71

106

5857,03

19,464

1,91

107

6029,30

19,635

2,09

108

6201,56

19,801

2,26

109

6373,83

19,963

2,43

110

6546,09

20,120

2,61

111

6718,36

20,273

2,80

112

6890,63

20,421

3,00

113

7062,89

20,565

3,22

114

7235,16

20,705

3,46

115

7407,42

20,840

3,71

116

7579,69

20,972

3,98

117

7751,95

21,099

4,28

118

7924,22

21,222

4,60

119

8096,48

21,342

4,94

120

8268,75

21,457

5,30

121

8441,02

21,569

5,69

122

8613,28

21,677

6,10

123

8785,55

21,781

6,54

124

8957,81

21,882

7,01

125

9130,08

21,980

7,50

126

9302,34

22,074

8,03

127

9474,61

22,165

8,59

128

9646,88

22,253

9,18

129

9819,14

22,338

9,80

130

9991,41

22,420

10,46

131

10163,67

22,499

11,15

132

10335,94

22,576

11,88

Таблица Г.1е - Частота дискретизации 24 кГц. Уровень II

Индекс

Частота спектральных линий

Абсолютный порог слышимости, дБ

Гц

барк

1

23,44

0,232

68,00

2

46,88

0,463

42,10

3

70,31

0,694

30,43

4

93,75

0,925

24,17

5

117,19

1,156

20,22

6

140,63

1,385

17,47

7

164,06

1,614

15,44

8

187,50

1,842

13,87

9

210,94

2,069

12,62

10

234,38

2,295

11,60

11

257,81

2,519

10,74

12

281,25

2,742

10,01

13

304,69

2,964

9,39

14

328,13

3,184

8,84

15

351,56

3,402

8,37

16

375,00

3,618

7,94

17

398,44

3,832

7,56

18

421,88

4,045

7,22

19

445,31

4,255

6,90

20

468,75

4,463

6,62

21

492,19

4,668

6,36

22

515,63

4,872

6,12

23

539,06

5,073

5,90

24

562,50

5,272

5,70

25

585,94

5,468

5,50

26

609,38

5,661

5,33

27

632,81

5,853

5,16

28

656,25

6,041

5,00

29

679,69

6,227

4,85

30

703,13

6,411

4,71

31

726,56

6,592

4,58

32

750,00

6,770

4,45

33

773,44

6,946

4,33

34

796,88

7,119

4,21

35

820,31

7,289

4,10

36

843,75

7,457

4,00

37

867,19

7,622

3,89

38

890,63

7,785

3,79

39

914,06

7,945

3,70

40

937,50

8,103

3,61

41

960,94

8,258

3,51

42

984,38

8,410

3,43

43

1007,81

8,560

3,34

44

1031,25

8,708

3,26

45

1054,69

8,853

3,17

46

1078,13

8,996

3,09

47

1101,56

9,137

3,01

48

1125,00

9,275

2,93

49

1171,88

9,544

2,78

50

1218,75

9,805

2,63

51

1265,63

10,057

2,47

52

1312,50

10,301

2,32

53

1359,38

10,537

2,17

54

1406,25

10,765

2,02

55

1453,13

10,986

1,86

56

1500,00

11,199

1,71

57

1546,88

11,406

1,55

58

1593,75

11,606

1,38

59

1640,63

11,800

1,21

60

1687,50

11,988

1,04

61

1734,38

12,170

0,86

62

1781,25

12,347

0,67

63

1828,13

12,518

0,49

64

1875,00

12,684

0,29

65

1921,88

12,845

0,09

66

1968,75

13,002

-0,11

67

2015,63

13,154

-0,32

68

2062,50

13,302

-0,54

69

2109,38

13,446

-0,75

70

2156,25

13,586

-0,97

71

2203,13

13,723

-1,20

72

2250,00

13,855

-1,43

73

2343,75

14,111

-1,88

74

2437,50

14,354

-2,34

75

2531,25

14,585

-2,79

76

2625,00

14,807

-3,22

77

2718,75

15,018

-3,62

78

2812,50

15,221

-3,98

79

2906,25

15,415

-4,30

80

3000,00

15,602

-4,57

81

3093,75

15,783

-4,77

82

3187,50

15,956

-4,91

83

3281,25

16,124

-4,98

84

3375,00

16,287

-4,98

85

3468,75

16,445

-4,92

86

3562,50

16,598

-4,80

87

3656,25

16,746

-4,61

88

3750,00

16,891

-4,36

89

3843,75

17,032

-4,07

90

3937,50

17,169

-3,73

91

4031,25

17,303

-3,36

92

4125,00

17,434

-2,96

93

4218,75

17,563

-2,55

94

4312,50

17,688

-2,14

95

4406,25

17,811

-1,73

96

4500,00

17,932

-1,33

97

4687,50

18,166

-0,59

98

4875,00

18,392

0,05

99

5062,50

18,611

0,58

100

5250,00

18,823

1,01

101

5437,50

19,028

1,36

102

5625,00

19,226

1,63

103

5812,50

19,419

1,86

104

6000,00

19,606

2,06

105

6187,50

19,788

2,25

106

6375,00

19,964

2,43

107

6562,50

20,135

2,63

108

6750,00

20,300

2,83

109

6937,50

20,461

3,06

110

7125,00

20,616

3,30

111

7312,50

20,766

3,57

112

7500,00

20,912

3,85

113

7687,50

21,052

4,16

114

7875,00

21,188

4,50

115

8062,50

21,318

4,86

116

8250,00

21,445

5,25

117

8437,50

21,567

5,67

118

8625,00

21,684

6,12

119

8812,50

21,797

6,61

120

9000,00

21,906

7,12

121

9187,50

22,012

7,67

122

9375,00

22,113

8,26

123

9562,50

22,210

8,88

124

9750,00

22,304

9,54

125

9937,50

22,395

10,24

126

10125,00

22,482

10,98

127

10312,50

22,566

11,77

128

10500,00

22,646

12,60

129

10687,50

22,724

13,48

130

10875,00

22,799

14,41

131

11062,50

22,871

15,38

132

11250,00

22,941

16,41

Таблица Г.2. - Границы критических полос. Частоты соответствуют верхней границе каждой критической полосы

Таблица Г.2а - Частота дискретизации 16 кГц. Уровень I

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

3

93,75

0,925

1

7

218,75

2,145

2

10

312,50

3,037

3

13

406,25

3,903

4

17

531,25

5,006

5

21

656,25

6,041

6

25

781,25

7,004

7

30

937,50

8,103

8

35

1093,75

9,090

9

40

1250,00

9,974

10

47

1468,75

11,058

11

51

1687,50

11,988

12

55

1937,50

12,898

13

61

2312,50

14,027

14

67

2687,50

14,949

15

74

3250,00

16,069

16

79

3875,00

17,078

17

84

4500,00

17,932

18

91

5375,00

18,960

19

99

6375,00

19,964

20

108

7500,00

20,912

Таблица Г.2б - Частота дискретизации 22,05 кГц. Уровень I

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

2

86,13

0,850

1

5

215,33

2,112

2

7

301,46

2,934

3

10

430,66

4,124

4

12

516,80

4,882

5

15

646,00

5,959

6

18

775,20

6,959

7

21

904,39

7,879

8

25

1076,66

8,987

9

29

1248,93

9,968

10

34

1464,26

11,037

11

39

1679,59

11,957

12

46

1981,05

13,042

13

51

2325,59

14,062

14

55

2670,12

14,909

15

61

3186,91

15,955

16

68

3789,84

16,951

17

74

4478,91

17,905

18

79

5340,23

18,922

19

85

6373,83

19,963

20

92

7579,69

20,972

21

101

9130,08

21,980

22

108

10335,94

22,576

Таблица Г.2в - Частота дискретизации 24 кГц. Уровень I

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

2

93,75

0,925

1

4

187,50

1,842

2

7

328,13

3,184

3

9

421,88

4,045

4

11

515,63

4,872

5

14

656,25

6,041

6

17

796,88

7,119

7

20

937,50

8,103

8

23

1078,13

8,996

9

27

1265,63

10,057

10

31

1453,13

10,986

11

36

1687,50

11,988

12

42

1968,75

13,002

13

49

2343,75

14,111

14

53

2718,75

15,018

15

58

3187,50

15,956

16

65

3843,75

17,032

17

72

4500,00

17,932

18

77

5437,50

19,028

19

82

6375,00

19,964

20

89

7687,50

21,052

21

97

9187,50

22,012

22

108

11250,00

22,941

Таблица Г.2г - Частота дискретизации 16 кГц. Уровень II

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

6

93,75

0,925

1

13

203,13

1,994

2

20

312,50

3,037

3

27

421,88

4,045

4

34

531,25

5,006

5

42

656,25

6,041

6

49

781,25

7,004

7

54

937,50

8,103

8

59

1093,75

9,090

9

64

1250,00

9,974

10

71

1468,75

11,058

11

75

1687,50

11,988

12

79

1937,50

12,898

13

85

2312,50

14,027

14

91

2687,50

14,949

15

98

3250,00

16,069

16

103

3875,00

17,078

17

108

4500,00

17,932

18

115

5375,00

18,960

19

123

6375,00

19,964

20

132

7500,00

20,912

Таблица Г.2д - Частота дискретизации 22,05 кГц. Уровень II

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

5

107,67

1,062

1

9

193,80

1,903

2

14

301,46

2,934

3

19

409,13

3,929

4

25

538,33

5,067

5

30

646,00

5,959

6

36

775,20

6,959

7

43

925,93

8,025

8

49

1076,66

8,987

9

53

1248,93

9,968

10

58

1464,26

11,037

11

63

1679,59

11,957

12

70

1981,05

13,042

13

75

2325,59

14,062

14

79

2670,12

14,909

15

85

3186,91

15,955

16

92

3789,84

16,951

17

98

4478,91

17,905

18

103

5340,23

18,922

19

109

6373,83

19,963

20

116

7579,69

20,972

21

125

9130,08

21,980

22

132

10335,94

22,576

Таблица Г.2е - Частота дискретизации 24 кГц. Уровень II

Номер

Индекс в таблицах Г.1

Частота спектральных линий

Гц

барк

0

4

93,75

0,925

1

9

210,94

2,069

2

13

304,69

2,964

3

18

421,88

4,045

4

23

539,06

5,073

5

28

656,25

6,041

6

33

773,44

6,946

7

39

914,06

7,945

8

46

1078,13

8,996

9

51

1265,63

10,057

10

55

1453,13

10,986

11

60

1687,50

11,988

12

66

1968,75

13,002

13

73

2343,75

14,111

14

77

2718,75

15,018

15

82

3187,50

15,956

16

89

3843,75

17,032

17

96

4500,00

17,932

18

101

5437,50

19,028

19

106

6375,00

19,964

20

113

7687,50

21,052

21

121

9187,50

22,012

22

132

11250,00

22,941

Г.3 Психоакустическая модель 2 для меньших частот дискретизации

Психоакустическая модель 2 для меньших частот дискретизации идентична психоакустической модели 2 ГОСТ Р 54711, с некоторыми исключениями. Следующие таблицы используются вместо таблиц В.7, В.8 (см. ГОСТ Р 54711).

Таблица Г.3а - Частота дискретизации 24 кГц, длинные блоки. Уровень III

Номер

БПФ-линии

minval

qthr

norm

bval

0

2

15

17.8250179

0.697374165

0.236874461

1

2

15

17.8250179

0.455024809

0.71016103

2

2

15

1.78250182

0.431440443

1.18193281

3

2

15

1.78250182

0.42391625

1.65102732

4

2

13

0.178250194

0.418206781

2.11632562

5

2

13

0.178250194

0.41158545

2.57676744

6

2

13

0.0563676581

0.405409157

3.03136396

7

2

13

0.0563676581

0.399695486

3.47920918

8

2

13

0.0563676581

0.393753231

3.91948748

9

2

12

0.0178250186

0.387357473

4.35147953

10

2

12

0.0178250186

0.38045457

4.77456427

11

2

10

0.0178250186

0.373053908

5.18822002

12

2

10

0.0178250186

0.365188122

5.59202194

13

2

10

0.0178250186

0.356897771

5.98564005

14

2

9

0.0178250186

0.348700613

6.36883163

15

2

9

0.0178250186

0.340260029

6.74143791

16

2

6

0.0178250186

0.332341045

7.10337448

17

2

6

0.0178250186

0.330462843

7.45462418

18

2

6

0.0178250186

0.345568359

7.79523182

19

3

3

0.0267375279

0.377859652

8.20455742

20

3

3

0.0267375279

0.396689415

8.67640114

21

3

3

0.0267375279

0.391237885

9.12561035

22

3

3

0.0267375279

0.37761277

9.55298138

23

3

3

0.0267375279

0.362836808

9.95940971

24

3

0

0.0267375279

0.349010617

10.3458519

25

3

0

0.0267375279

0.339673489

10.7132998

26

3

0

0.0267375279

0.343845725

11.0627575

27

4

0

0.0356500372

0.355822682

11.447506

28

4

0

0.0356500372

0.358104348

11.8627586

29

4

0

0.0356500372

0.34745428

12.2520256

30

4

0

0.0356500372

0.334927917

12.6173973

31

4

0

0.0356500372

0.331643254

12.9608269

32

5

0

0.0445625484

0.333368897

13.3219252

33

5

0

0.0445625484

0.332313001

13.6976833

34

5

0

0.0445625484

0.3314417

14.047802

35

6

0

0.0534750558

0.330947191

14.405302

36

6

0

0.0534750558

0.332477689

14.7684803

37

7

0

0.062387567

0.332647532

15.1315956

38

7

0

0.062387567

0.330841452

15.4940481

39

8

0

0.0713000745

0.327769846

15.8516159

40

8

0

0.0713000745

0.324572712

16.204628

41

9

0

0.0802125856

0.323825002

16.5502281

42

10

0

0.0891250968

0.321414798

16.9067478

43

10

0

0.0891250968

0.318189293

17.2537231

44

11

0

0.0980376005

0.315934151

17.5901108

45

12

0

0.106950112

0.315639287

17.931406

46

13

0

0.115862623

0.316569835

18.2750721

47

14

0

0.124775134

0.31656

18.6191597

48

15

0

0.133687645

0.315465957

18.9621754

49

16

0

0.142600149

0.313576341

19.3029613

50

17

0

0.151512653

0.311635971

19.6405869

51

18

0

0.160425171

0.311066717

19.9742699

52

20

0

0.355655879

0.311465651

20.3115921

53

21

0

0.373438686

0.311872005

20.6507797

54

23

0

0.409004271

0.311015964

20.9890823

55

24

0

0.676411927

0.309207708

21.3251152

56

26

0

0.732779562

0.3081128

21.6565971

57

28

0

0.789147198

0.310006589

21.9881554

58

31

0

2.76287794

0.327113092

22.3222847

59

34

0

3.03025317

0.416082352

22.6605186

Таблица Г.3б - Частота дискретизации 22,05 кГц, длинные блоки. Уровень III

Номер

БПФ-линии

minval

qthr

norm

bval

0

2

15

17.8250179

0.658683598

0.217637643

1

2

15

17.8250179

0.432554901

0.652563453

2

2

15

1.78250182

0.405113578

1.08633137

3

2

15

1.78250182

0.397231787

1.51803517

4

2

15

1.78250182

0.392088681

1.94679713

5

2

13

0.178250194

0.386788279

2.37177849

6

2

13

0.178250194

0.380574644

2.79218864

7

2

13

0.0563676581

0.375309765

3.20729256

8

2

13

0.0563676581

0.370087624

3.61641645

9

2

12

0.0178250186

0.364568561

4.01895428

10

2

12

0.0178250186

0.358959526

4.4143672

11

2

12

0.0178250186

0.352938265

4.80218887

12

2

10

0.0178250186

0.3465029

5.18202305

13

2

10

0.0178250186

0.33968094

5.55354261

14

2

10

0.0178250186

0.332571507

5.91648674

15

2

9

0.0178250186

0.326015651

6.27065945

16

2

9

0.0178250186

0.325442046

6.61592293

17

2

9

0.0178250186

0.341315031

6.95219517

18

3

6

0.0267375279

0.374984443

7.3584404

19

3

6

0.0267375279

0.396138102

7.8290925

20

3

3

0.0267375279

0.39271906

8.27975655

21

3

3

0.0267375279

0.380755007

8.71083069

22

3

3

0.0267375279

0.367386311

9.12284088

23

3

3

0.0267375279

0.354351997

9.51640987

24

3

3

0.0267375279

0.341508389

9.89222908

25

3

0

0.0267375279

0.333577901

10.2510386

26

3

0

0.0267375279

0.338108748

10.5936022

27

4

0

0.0356500372

0.350744486

10.9723492

28

4

0

0.0356500372

0.354519457

11.38272

29

4

0

0.0356500372

0.345274031

11.7689981

30

4

0

0.0356500372

0.333828837

12.1329184

31

4

0

0.0356500372

0.331436664

12.4761295

32

5

0

0.0445625484

0.334172577

12.8381901

33

5

0

0.0445625484

0.334024847

13.2160273

34

5

0

0.0445625484

0.33392629

13.5690479

35

6

0

0.0534750558

0.334218502

13.9303951

36

6

0

0.0534750558

0.336405039

14.298193

37

7

0

0.062387567

0.337080389

14.666563

38

7

0

0.062387567

0.335603535

15.0346909

39

8

0

0.0713000745

0.332515866

15.398139

40

8

0

0.0713000745

0.327727586

15.7570457

41

9

0

0.0802125856

0.322346836

16.1083431

42

9

0

0.0802125856

0.317575186

16.4528522

43

10

0

0.0891250968

0.31632933

16.7886105

44

11

0

0.0980376005

0.317602783

17.132

45

12

0

0.106950112

0.319945186

17.4796028

46

13

0

0.115862623

0.320881754

17.8287659

47

14

0

0.124775134

0.320346534

18.1774921

48

15

0

0.133687645

0.318628669

18.5243168

49

16

0

0.142600149

0.316125751

18.8681736

50

17

0

0.151512653

0.313746184

19.2082729

51

18

0

0.160425171

0.312971771

19.5440025

52

20

0

0.178250194

0.313278913

19.8831882

53

21

0

0.373438686

0.313735574

20.224247

54

23

0

0.409004271

0.31308493

20.5646286

55

24

0

0.426787049

0.31156227

20.903141

56

26

0

0.732779562

0.310435742

21.2376747

57

28

0

0.789147198

0.31132248

21.5730591

58

30

0

0.845514894

0.32730341

21.9066811

59

33

0

2.94112802

0.414659739

22.2411156

Таблица Г.3в - Частота дискретизации 16 кГц, длинные блоки. Уровень III

Номер

БПФ-линии

minval

qthr

norm

bval

0

3

15

26.7375278

0.697374165

0.236874461

1

3

15

26.7375278

0.455024809

0.71016103

2

3

15

2.67375278

0.431440443

1.18193281

3

3

15

2.67375278

0.42391625

1.65102732

4

3

13

0.26737529

0.418206781

2.11632562

5

3

13

0.26737529

0.41158545

2.57676744

6

3

13

0.0845514908

0.405409157

3.03136396

7

3

13

0.0845514908

0.399695486

3.47920918

8

3

13

0.0845514908

0.393753231

3.91948748

9

3

12

0.0267375279

0.387357473

4.35147953

10

3

12

0.0267375279

0.38045457

4.77456427

11

3

10

0.0267375279

0.373053908

5.18822002

12

3

10

0.0267375279

0.365188122

5.59202194

13

3

10

0.0267375279

0.356897742

5.98564005

14

3

9

0.0267375279

0.34869957

6.36883163

15

3

9

0.0267375279

0.340241522

6.74143791

16

3

6

0.0267375279

0.332089454

7.10337448

17

3

6

0.0267375279

0.328292668

7.45462418

18

3

6

0.0267375279

0.336574793

7.79523182

19

4

3

0.0356500372

0.354600489

8.17827797

20

4

3

0.0356500372

0.364343345

8.59994984

21

4

3

0.0356500372

0.359369367

9.00363636

22

4

3

0.0356500372

0.347775847

9.38988018

23

4

3

0.0356500372

0.335562587

9.7592926

24

4

0

0.0356500372

0.326988578

10.1125278

25

4

0

0.0356500372

0.327966213

10.4502735

26

5

0

0.0445625484

0.334450752

10.811614

27

5

0

0.0445625484

0.335228145

11.1935263

28

5

0

0.0445625484

0.329595625

11.5549288

29

5

0

0.0445625484

0.326683223

11.8971443

30

6

0

0.0534750558

0.326986551

12.2520256

31

6

0

0.0534750558

0.325072199

12.6173973

32

6

0

0.0534750558

0.323560268

12.9608269

33

7

0

0.062387567

0.322494298

13.3093863

34

7

0

0.062387567

0.323403448

13.6617231

35

8

0

0.0713000745

0.323232353

14.0134668

36

8

0

0.0713000745

0.322662383

14.3639784

37

9

0

0.0802125856

0.324054241

14.7098465

38

10

0

0.0891250968

0.323228806

15.0686541

39

10

0

0.0891250968

0.320751846

15.4191036

40

11

0

0.0980376005

0.318823338

15.7594051

41

12

0

0.106950112

0.318418682

16.104557

42

13

0

0.115862623

0.318762124

16.451416

43

14

0

0.124775134

0.317806393

16.7975388

44

15

0

0.133687645

0.315653771

17.1411018

45

16

0

0.142600149

0.313369036

17.4808159

46

17

0

0.151512653

0.312513858

17.8158207

47

19

0

0.169337675

0.312785119

18.1543369

48

20

0

0.178250194

0.31343773

18.4948578

49

22

0

0.196075201

0.313258767

18.8350143

50

23

0

0.20498772

0.312570423

19.1740704

51

25

0

0.222812727

0.312572777

19.5104179

52

27

0

0.240637749

0.313047856

19.8497677

53

29

0

0.515701056

0.315029174

20.1900635

54

31

0

0.551266611

0.330613613

20.5294952

55

33

0

0.586832225

0.41819948

20.8664398

Таблица Г.3г - Частота дискретизации 24 кГц, короткие блоки. Уровень III

Номер

БПФ-линии

minval

qthr

norm

bval

0

1

8.91250896

0.971850038

0.150000006

0

1

1

8.91250896

0.874727964

0.150000006

0.946573138

2

1

0.891250908

0.85779953

0.150000006

1.88476217

3

1

0.0891250968

0.839743853

0.150000006

2.8056457

4

1

0.028183829

0.82260257

0.150000006

3.70133615

5

1

0.00891250931

0.80018574

0.150000006

4.56532001

6

1

0.00891250931

0.771475196

0.150000006

5.39263105

7

1

0.00891250931

0.737389982

0.150000006

6.17986727

8

1

0.00891250931

0.701111019

0.150000006

6.92507982

9

1

0.00891250931

0.65977633

0.150000006

7.62757969

10

1

0.00891250931

0.615037441

0.150000006

8.28770351

11

1

0.00891250931

0.568658054

0.150000006

8.90657234

12

1

0.00891250931

0.522260666

0.180000007

9.48587132

13

1

0.00891250931

0.478903115

0.180000007

10.0276566

14

1

0.00891250931

0.43808648

0.180000007

10.5341988

15

1

0.00891250931

0.412505627

0.180000007

11.0078659

16

1

0.00891250931

0.39070797

0.180000007

11.4510288

17

1

0.00891250931

0.371887118

0.180000007

11.866004

18

1

0.00891250931

0.367617637

0.180000007

12.2550087

19

1

0.00891250931

0.422220588

0.180000007

12.6201363

20

2

0.0178250186

0.564990044

0.180000007

13.2772083

21

2

0.0178250186

0.519700944

0.180000007

13.871047

22

2

0.0178250186

0.455360681

0.200000003

14.4024391

23

2

0.0178250186

0.408867925

0.200000003

14.8811684

24

2

0.0178250186

0.381538749

0.200000003

15.3153324

25

2

0.0178250186

0.362357527

0.200000003

15.7116165

26

2

0.0178250186

0.365735918

0.200000003

16.0755405

27

3

0.0267375279

0.38064

0.200000003

16.4882088

28

3

0.0267375279

0.379183382

0.200000003

16.9410992

29

3

0.0267375279

0.360672712

0.200000003

17.3513336

30

3

0.0267375279

0.343065977

0.200000003

17.7264423

31

3

0.0267375279

0.339290261

0.200000003

18.0722466

32

4

0.0356500372

0.342963994

0.200000003

18.4426575

33

4

0.0356500372

0.343128443

0.200000003

18.8344078

34

4

0.0356500372

0.343988508

0.25

19.1955795

35

5

0.0445625484

0.343928397

0.25

19.5697021

36

5

0.0445625484

0.339527696

0.25

19.9551182

37

5

0.0889139697

0.336541563

0.280000001

20.3115921

38

6

0.106696762

0.334955156

0.280000001

20.6737747

39

6

0169102982

0.335601568

0.300000012

21.0404968

40

7

0.1972868

0.334716886

0.300000012

21.4060211

41

7

0.1972868

0.331676662

0.300000012

21.7696877

42

8

0.713000774

0.328550965

0.400000006

22.1267223

43

8

0.713000774

0.339241952

0.400000006

22.4769249

44

9

0.802125871

0.425207615

0.400000006

22.8164864

Таблица Г.3д - Частота дискретизации 22,05 кГц, короткие блоки. Уровень III

Номер

БПФ-линии

qthr

norm

SNR (dB)

bval

0

1

8.91250896

0.954045713

0.150000006

0

1

1

8.91250896

0.833381653

0.150000006

0.869851649

2

1

0.891250908

0.815945923

0.150000006

1.73325908

3

1

0.0891250968

0.794244766

0.150000006

2.58322191

4

1

0.028183829

0.776486695

0.150000006

3.4134295

5

1

0.00891250931

0.755260408

0.150000006

4.21850443

6

1

0.00891250931

0.731070817

0.150000006

4.99414825

7

1

0.00891250931

0.701775849

0.150000006

5.73718691

8

1

0.00891250931

0.667876124

0.150000006

6.44553185

9

1

0.00891250931

0.630284071

0.150000006

7.11807632

10

1

0.00891250931

0.590170324

0.150000006

7.75455618

11

1

0.00891250931

0.548788548

0.150000006

8.3553915

12

1

0.00891250931

0.507795513

0.150000006

8.92152882

13

1

0.00891250931

0.469515711

0.180000007

9.45430183

14

1

0.00891250931

0.432291716

0.180000007

9.95530319

15

1

0.00891250931

0.411131173

0.180000007

10.4262848

16

1

0.00891250931

0.390771538

0.180000007

10.8690758

17

1

0.00891250931

0.373318017

0.180000007

11.2855215

18

1

0.00891250931

0.36956048

0.180000007

11.6774378

19

1

0.00891250931

0.42595759

0.180000007

12.0465794

20

2

0.0178250186

0.576900065

0.180000007

12.7141209

21

2

0.0178250186

0.533114731

0.180000007

13.3197365

22

2

0.0178250186

0.469967514

0.180000007

13.8634901

23

2

0.0178250186

0.417268544

0.200000003

14.3544445

24

2

0.0178250186

0.389299124

0.200000003

14.8002586

25

2

0.0178250186

0.362824857

0.200000003

15.2073727

26

2

0.0178250186

0.346801281

0.200000003

15.5811834

27

2

0.0178250186

0.349400043

0.200000003

15.926218

28

3

0.0267375279

0.364026934

0.200000003

16.3194923

29

3

0.0267375279

0.36560446

0.200000003

16.752903

30

3

0.0267375279

0.354275256

0.200000003

17.1470814

31

3

0.0267375279

0.351219416

0.200000003

17.5086212

32

4

0.0356500372

0.354364097

0.200000003

17.8938141

33

4

0.0356500372

0.348915905

0.200000003

18.2992878

34

4

0.0356500372

0.337649345

0.200000003

18.6713982

35

4

0.0356500372

0.332076877

0.25

19.015646

36

5

0.0445625484

0.330793113

0.25

19.3734016

37

5

0.0445625484

0.327528268

0.25

19.7430382

38

5

0.0889139697

0.32551071

0.280000001

20.0859604

39

6

0.106696762

0.324436843

0.280000001

20.4354992

40

6

0.106696762

0.325835049

0.280000001

20.7905579

41

7

0.1972868

0.326221824

0.300000012

21.1458054

42

7

0.1972868

0.325960994

0.300000012

21.5005951

43

8

0.225470632

0.339019388

0.300000012

21.8504524

44

8

0.713000774

0.426850349

0.400000006

22.1951065

Таблица Г.3е - Частота дискретизации 16 кГц, короткие блоки. Уровень III

Номер

БПФ-линии

qthr

norm

SNR (dB)

bval

1

1

8.91250896

0.623757005

0.150000006

0.631518543

2

1

0.891250908

0.60420388

0.150000006

1.2606914

3

1

0.891250908

0.591974258

0.150000006

1.88476217

4

1

0.0891250968

0.575301588

0.150000006

2.50111985

5

1

0.028183829

0.561547697

0.150000006

3.1073606

6

1

0.028183829

0.546665847

0.150000006

3.70133615

7

1

0.00891250931

0.52986443

0.150000006

4.28118753

8

1

0.00891250931

0.511183441

0.150000006

4.84536505

9

1

0.00891250931

0.490902334

0.150000006

5.39263105

10

1

0.00891250931

0.46938166

0.150000006

5.92205667

11

1

0.00891250931

0.447003782

0.150000006

6.43299866

12

1

0.00891250931

0.428170592

0.150000006

6.92507982

13

1

0.00891250931

0.414536625

0.150000006

7.39815664

14

1

0.00891250931

0.401033074

0.150000006

7.85228777

15

1

0.00891250931

0.38779071

0.150000006

8.28770351

16

1

0.00891250931

0.374230444

0.150000006

8.704772

17

1

0.00891250931

0.360547513

0.180000007

9.10397339

18

1

0.00891250931

0.348256677

0.180000007

9.48587132

19

1

0.00891250931

0.350327015

0.180000007

9.85109234

20

1

0.00891250931

0.406330824

0.180000007

10.200304

21

2

0.0178250186

0.554098248

0.180000007

10.846529

22

2

0.0178250186

0.528312504

0.180000007

11.4447651

23

2

0.0178250186

0.476527005

0.180000007

11.9928398

24

2

0.0178250186

0.428205669

0.180000007

12.495945

25

2

0.0178250186

0.402271926

0.180000007

12.9588718

26

2

0.0178250186

0.378024429

0.180000007

13.3859692

27

2

0.0178250186

0.36254698

0.180000007

13.7811394

28

2

0.0178250186

0.368058592

0.200000003

14.1478529

29

3

0.0267375279

0.385963261

0.200000003

14.5674343

30

3

0.0267375279

0.38640517

0.200000003

15.0304852

31

3

0.0267375279

0.367834061

0.200000003

15.4513416

32

3

0.0267375279

0.349686563

0.200000003

15.836277

33

3

0.0267375279

0.345709383

0.200000003

16.1904697

34

4

0.0356500372

0.34871915

0.200000003

16.5683517

35

4

0.0356500372

0.347054332

0.200000003

16.9660263

36

4

0.0356500372

0.346329987

0.200000003

17.3304482

37

5

0.0445625484

0.344658494

0.200000003

17.7055588

38

5

0.0445625484

0.338779271

0.200000003

18.0899811

39

5

0.0445625484

0.334878683

0.200000003

18.4440536

40

6

0.0534750558

0.332811534

0.200000003

18.8030052

41

6

0.0534750558

0.333717585

0.25

19.1665268

42

7

0.062387567

0.333986402

0.25

19.5299358

43

7

0.062387567

0.334142625

0.25

19.8934898

44

8

0.142262354

0.34677428

0.280000001

20.2535706

45

8

0.142262354

0.436254472

0.280000001

20.610569

Таблица Г.4 - Таблицы преобразования разделов вычисления порога маскирования в полосы масштабных коэффициентов

Таблица Г4а - Частота дискретизации 24 кГц, длинные блоки

Номер, sb

cbw

bu

b0

w1

w2

0

2

0

3

1

0.916666746

1

3

3

6

0.083333254

0.583333492

2

3

6

9

0.416666508

0.25

3

2

9

11

0.75

0.916666985

4

3

11

14

0.083333015

0.583333969

5

3

14

17

0.416666031

0.25

6

3

17

20

0.75

0.537036896

7

3

20

23

0.462963104

0.5

8

4

23

27

0.5

0.055556000

9

3

27

30

0.944444001

0.402778625

10

3

30

33

0.597221375

0.766567187

11

3

33

36

0.233332828

0.805555999

12

3

36

39

0.194444016

0.769841909

13

3

39

42

0.23015812

0.611111104

14

3

42

45

0.388888896

0.449494779

15

3

45

48

0.550505221

0.194444954

16

2

48

50

0.805555046

0.913194656

17

3

50

53

0.086805344

0.580555737

18

3

53

56

0.419444263

0.113426208

19

2

56

58

0.886573792

0.533730626

20

2

58

60

0.466269344

0.691176474

Таблица Г.4б - Частота дискретизации 22,05 кГц, длинные блоки

Номер, sb

cbw

bu

b0

w1

w2

0

2

0

3

1

0.916666746

1

3

3

6

0.083333254

0.583333492

2

3

6

9

0.416666508

0.25

3

2

9

11

0.75

0.916666985

4

3

11

14

0.083333015

0.583333969

5

3

14

17

0.416666031

0.25

6

3

17

20

0.75

0.203703582

7

3

20

23

0.796296418

0.166666687

8

3

23

26

0.833333313

0.722222686

9

4

26

30

0.277777344

0.152778625

10

3

30

33

0.847221375

0.566667199

11

3

33

36

0.433332831

0.93518573

12

4

36

40

0.064814247

0.118056297

13

3

40

43

0.881943703

0.09259373Я*

14

2

43

45

0.907406271

0.934344172

15

3

45

48

0.065655798

0.575398028

16

3

48

51

0.424601972

0.232026935

17

2

51

53

0.767973065

0.758334339

18

3

53

56

0.241665646

0.187501252

19

2

56

58

0.812498748

0.533731699

20

2

58

60

0.466268271

0.257577598

________________

* Текст документа соответствует оригиналу. - .

Таблица Г.4в - Частота дискретизации 16 кГц, длинные блоки

Номер, sb

cbw

bu

b0

w1

w2

0

1

0

2

1

0.944444478

1

2

2

4

0.055555504

0.722222328

2

2

4

6

0.277777672

0.5

3

2

6

8

0.5

0.27777797

4

2

8

10

0.72222203

0.055555994

5

1

10

11

0.944444001

0.833333313

6

3

11

14

0.166666672

0.203703582

7

3

14

17

0.796296418

0.166666687

8

3

17

20

0.833333313

0.54166698

9

3

20

23

0.458333015

0.652778625

10

4

23

27

0.347221375

0.166667163

11

3

27

30

0.833332837

0.722222924

12

4

30

34

0.277777106

0.277778625

13

3

34

37

0.722221375

0.604167938

14

3

37

40

0.395832062

0.627778649

15

3

40

43

0.37222138

0.542736351

16

3

43

46

0.457263649

0.371528625

17

3

46

49

0.628471375

0.008334339

18

2

49

51

0.991665661

0.500001311

19

2

51

53

0.499998659

0.886832893

20

2

53

55

0.113167092

0.629034221

Таблица Г.4г - Частота дискретизации 24 кГц, короткие блоки

Номер, sb

cbw

bu

b0

w1

w2

0

3

0

4

1

0.166666746

1

2

4

6

0.833333254

0.833333492

2

3

6

9

0.166666508

0.5

3

4

9

13

0.5

0.5

4

5

13

18

0.5

0.833333969

5

5

18

23

0.166666031

0.25

6

4

23

27

0.75

0.25

7

3

27

30

0.75

0.611111999

8

4

30

34

0.388888031

0.208333969

9

3

34

37

0.791666031

0.766667187

10

4

37

41

0.233332828

0.45238167

11

4

41

45

0.54761833

0.277778625

Таблица Г.4д - Частота дискретизации 22,05 кГц, короткие блоки

Номер, sb

cbw

bu

b0

w1

w2

0

3

0

4

1

0.166666746

1

2

4

6

0.833333254

0.833333492

2

3

6

9

0.166666508

0.5

3

4

9

13

0.5

0.5

4

4

13

17

0.5

0.5

5

4

17

21

0.5

0.916666985

6

4

21

25

0.083333015

0.25

7

4

25

29

0.75

0.611111999

8

4

29

33

0.388888031

0.458333969

9

4

33

37

0.541666031

0.633334339

10

4

37

41

0.366665661

0.583334565

11

4

41

45

0.416665405

0.437500954

Таблица Г4.е - Частота дискретизации 16 кГц, короткие блоки

Номер, sb

cbw

bu

b0

w1

w2

0

3

0

4

1

0.166666746

1

2

4

6

0.833333254

0.833333492

2

3

6

9

0.166666508

0.5

3

4

9

13

0.5

0.5

4

5

13

18

0.5

0.833333969

5

5

18

23

0.166666031

0.75

6

4

23

27

0.25

0.75

7

4

27

31

0.25

0.611111999

8

4

31

35

0.388888031

0.458333969

9

4

35

39

0.541666031

0.166667163

10

3

39

42

0.833332837

0.805555999

11

4

42

46

0.194444016

0.4375

Приложение Д
(обязательное)

Использование дополнительных данных

Д.1 Введение

Множество существующих приложений MPEG audio, включая международные стандарты (например [4] и [5]), определило форматы вспомогательного поля данных в соответствии с определенными требованиями этих приложений. В данном приложении даются некоторые примеры, которые могли бы представлять интерес для будущих приложений.

Каждый фрейм настоящего стандарта может содержать некоторое количество дополнительных байт данных. Эти данные могут быть размещены в двух отдельных полях фрейма кодированных данных. Одно поле располагается в конце основного фрейма для совместимости с определением дополнительных данных ГОСТ Р 54711, другое поле располагается в конце фрейма расширения.

Наиболее популярные из дополнительных данных - данные о программе (Programme Associated Data - PAD), тесно связанные с аудиосигналом.

Д.2 Типичные данные о программе

- Типичные примеры использования данных о программе:

- индикация типа звукового контента (музыки или речи);

- текстовая информация, имеющая отношение к программе (ITTS);

- универсальный код изделия/европейский номер изделия (UPC/EAN);

- специальные синхронные команды для ресивера/декодера;

- информация для управления динамическим диапазоном (DRC).

Сигнал DRC может дополнительно применяться в ресивере для сжатия динамического диапазона звукового сигнала. Указанные данные могут быть востребованы при отсутствии задержки в передаче данных.

Все функции, предоставляемые PAD, и длина полей PAD определяются пользователем. Поэтому любая информация может быть размещена в поле PAD.

Д.3 Управление динамическим диапазоном

Продолжительные исследования показали, что в условиях, далеких от идеальных, прослушивание звуковых программ не требует полного динамического диапазона, обеспечиваемого цифровым аудио. Методы передачи данных в кодированном потоке битов с целью сократить динамический диапазон аудио были определены в ГОСТ Р 54711, Уровень II для использования в цифровом радиовещании DAB [4].

При помощи управления динамическим диапазоном (DRC) ресивер может уменьшить динамический диапазон звукового сигнала. Цель этого состоит в том, чтобы адаптировать динамический диапазон звукового сигнала к прослушиванию в шумной среде или к прослушиванию программ, обладающих большим динамическим диапазоном (звуковые дорожки фильмов) для домашнего прослушивания. Декодеры настоящего стандарта дополнительно позволяют обеспечить сжатие динамического диапазона путем получения управляющей информации непосредственно из самого аудиосигнала или из подходящего сигнала DRC, переданного во вспомогательном поле данных. Передача сигнала DRC является опцией провайдера программы и не является требованием системы.

В спецификации DAB часть дополнительных данных, передаваемых вместе с аудио (F-PAD), кроме всего прочего, может содержать поле данных DRC размером шесть битов, которое должно использоваться для изменения усиления воспроизводимого аудиосигнала. В текущих вариантах [4], когда передается управление динамическим диапазоном, шесть битов соответствуют усилению, которое будет применено к восстановленному звуковому сигналу в диапазоне 0-15,75 дБ с шагом 0,25 дБ. Размер шага 0,25 дБ, как показали эксперименты, был наиболее приемлем с точки зрения обеспечения плавного регулирования усиления во время медленных изменений усиления в классической музыке. Верхний предел усиления 15,75 дБ позволяет достичь подходящего сокращения динамического диапазона для не очень сложных условий прослушивания. Если требуется дальнейшее сокращение динамического диапазона из-за чрезвычайно неблагоприятных условий, сообщенные значения могут масштабироваться при незаметном увеличении размера шага. Информация для управления динамическим диапазоном передается при помощи шести битов один раз в 24 мс. Это соответствует скорости передачи 250 бит/с (без учета данных, необходимых для сигнализации использования DRC).

Д.4 Индикация музыки/речи

Эти два флага указывают, состоит ли переданный звук из музыки или речи. Ресивер может использовать эту информацию для управления любой схемой звуковой обработки. Определенная комбинация флагов сигнализирует об отсутствии индикации. Индикация музыки/речи обычно требует двух битов, повторяемых приблизительно 10 раз в секунду.

Д.5 Команды для ресивера/декодера

Отдельный канал может быть выделен для передачи специальных команд для ресивера/декодера синхронно с аудиосигналом. Такие команды используются, например, для инициирования асинхронного чтения изображения из буфера, который был заполнен ранее. Такой канал в состоянии переносить несколько байт в течение 0,2-0,5 секунд, через неравные интервалы.

Д.6 Текст, связанный с программой

Для передачи текстовых данных о песне, элементе программы, кодированный текст может быть передан вместе с аудиоинформацией. Этот текст может быть сгенерирован локальным провайдером программы, считан с помощью цифрового программного обеспечения и передан более или менее прозрачно, кроме того, при этом могут быть объединены различные источники. Емкость канала, требуемая для передачи текста, зависит от емкости услуги.

Д.7 Внутренняя информация

Каналы могут быть выделены как для коротких синхронных команд, так и для длинных строк асинхронных данных. Эти команды предназначены для внутреннего пользования только в пределах определенного приложения.

Библиография

[1]

ИСО/МЭК 13818-1:1998

Информационные технологии. Универсальное кодирование движущихся изображений и сопутствующего аудио. Часть 1. Системы. ISO/IEC 13818-1:1998, Information Technology - Generic coding of moving pictures and associated audio information: Systems

[2]

ITU-T Рекомендация G 722:1988

Кодирование звука до 7 кГц в пределах 64 кбит/с. ITU-T G.722:1988, '7 kHz audio-coding within 64 kbit/s

[3]

ITU-R Рекомендации 775:1992

Многоканальная стереофоническая аудиосистема с и без сопроводительного изображения. ITU-R Recommendation 775:1992, Multichannel stereophonic sound system with and without accompanying picture

[4]

Европейский стандарт связи
pr ETS 300 401:1995

Система радиовещания. Широковещательная передача цифрового аудио (DAB) для подвижных, мобильных и стационарных ресиверов. ETS 300 401. Radio Broadcasting Systems; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers.

[5]

ITU-T Рекомендация J.52:1995

Цифровая передача высококачественных звуковых сигналов с использованием одного, двух или трех каналов на скорости 64 кбит/с в моно (и до шести каналов в стерео). ITU-T J.52:1995, Digital Transmission of High Quality Sound Programme Signals using one, two or three 64 kbit/s Channels per Mono Signal (and up to Six per Stereo Signal)

УДК 621.396:006.354

ОКС 33.170

Ключевые слова: звуковое вещание, электрические параметры, каналы и тракты, технологии MPEG-кодирования, синтетический звук, масштабирование, защита от ошибок, поток битов расширения, психоакустическая модель

Электронный текст документа

и сверен по:

, 2020