ГОСТ Р 53556.9-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 Audio). Методы кодирования звука MPEG-1/2 Audio в MPEG-4. Основные технические требования

Обложка ГОСТ Р 53556.9-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 Audio). Методы кодирования звука MPEG-1/2 Audio в MPEG-4. Основные технические требования
Обозначение
ГОСТ Р 53556.9-2013
Наименование
Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 Audio). Методы кодирования звука MPEG-1/2 Audio в MPEG-4. Основные технические требования
Статус
Действует
Дата введения
2014.01.09
Дата отмены
-
Заменен на
-
Код ОКС
33.170


ГОСТ Р 53556.9-2013



НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ

Часть III (MPEG-4 audio)

Методы кодирования звука MPEG-1/2 Audio в MPEG-4. Основные технические требования

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. A part III (MPEG-4 audio). Main positions MPEG-1/2 Audio in MPEG-4

ОКС 33.170

Дата введения 2014-09-01

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. N 1721-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Звуковое кодирование" (ISO/IEC 14496-3:2009 "Information technology - Coding of audio-visual objects - Part 3: Audio", NEQ)

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - .

5 ВВЕДЕН ВПЕРВЫЕ

6 ПЕРЕИЗДАНИЕ. Июль 2020 г.

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

1 Область применения

Стандарт MPEG-1/2 Аудио в MPEG-4 спецификации MPEG-4 Аудио определяет использование MPEG-1/2 уровня 1, 2 или 3 ориентированным на MPEG-4 способом, то есть так, что сигнализация и доступ до обработки на системном уровне идентичны другим типам объектов MPEG-4 Аудио.

Чтобы перенести фреймы потока битов MPEG-1/2 уровень 1, 2 или 3 в MPEG-4, они переформатируются таким образом, что становятся автономными единицами доступа MPEG-4. Это облегчает транспортировку по пакетным сетям, произвольный доступ, и возможность редактирования. Автономные единицы доступа, которые используются в системах совместимой транспортировки или формата хранения MPEG-4, могут быть переконвертированы в совместимые с MPEG-1/2 потоки битов и затем декодированы любым совместимым с MPEG-1/2 декодером.

Синтаксис MPEG-4 Аудио дополнительно расширяется, чтобы сделать возможными многоканальные конфигурации на базе ГОСТ Р 54711 и ГОСТ Р 54712. Многоканальные конфигурации подобны конфигурациям, определенным для других аудио объектных типов MPEG-4 с многоканальными возможностями. Для MPEG-1/2 уровня 1 и 2 формат не расширяется. Многоканальный формат для этих уровней описывается в ГОСТ Р 54712.

Разрешенные частоты дискретизации для уровня 3 расширяются для речевого выхода инструментов FA и для дублирования МР с информацией о форме губ.

Для использования MPEG-1/2 уровня 1, 2 или 3 в MPEG-4 посредством унаследованного интерфейса MPEG 4, используется ObjectTypelndication 0x69 или 0х6b.

2 MPEG_1_2_SpecificConfig

* extension должно быть нулем.

3 Отображение канала

Применяются следующие правила:

- элементы single_channel_element () 's и lfe_element () 's представляются монофоническими аудиофреймами;

- элементы channel_pair_element () 's представляются стереофоническими аудиофреймами;

- для уровня 1 и уровня 2 разрешается не больше одного монофонического аудиофрейма, представляющего single_channel_element (), или одного стереофонического аудиофрейма, представляющего channel_pair_element ().

4 Формат единицы доступа

4.1 Уровни 1 и 2

Один аудио фрейм отображается непосредственно одной единицей доступа.

4.2 Уровень 3

Одна единица доступа состоит из одного или нескольких элементов mp3_channel_elements. Элемент mp3_channel_element равняется аудиофрейму уровня 3 со следующими изменениями по сравнению с его определением в ГОСТ Р 54711 или ГОСТ Р 54712:

syncword (12 битов)

Сообщает полную длину mp3_channel_element (состоящего из заголовка, error_check, дополнительной информации и основных данных) в байтах.

main_data_begin (9/8 бит)

Устанавливается в корректное значение, соответствующее потоку битов MPEG-1/2 уровня 3, или обнуляется.

main_data ()

Обычно сохраняется после дополнительной информации.

Все прочие элементы данных должны быть установлены согласно их спецификации в ГОСТ Р 54711 или ГОСТ Р 54712. Все установки в заголовке должны соответствовать установкам в AudioSpecificConfig ().

Все элементы mp3_channel_elements, принадлежащие одной и той же метке времени, сохраняются последовательно в одной единице доступа.

5 Расширение частоты дискретизации для уровня 3

В этом пункте приводятся спецификации, позволяющие использовать уровень 3 с частотами дискретизации, не определенными в ГОСТ Р 54711 или ГОСТ Р 54712.

Синтаксис и описание потока битов для расширения частот дискретизации ниже, чем определенные в ГОСТ Р 54711-2012, находятся в соответствии с ГОСТ Р 54712-2012 (один фрейм охватывает 576 выборок).

5.1 Скорости передачи

Таблица 1 определяет скорость передачи в зависимости от bitrate_index и частоты дискретизации.

Таблица 1 - Скорость передачи в зависимости от bitrate_index и частоты дискретизации

bitrate_index

Определенная скорость передачи, Кбит/с

8, 11,025, 12 кГц

16, 22,05, 24 кГц (см. ГОСТ Р 54712)

32, 44,1, 48 кГц (см. ГОСТ Р 54711)

'0000'

Запрещено

Запрещено

Запрещено

'0001'

8

8

32

'0010'

16

16

40

'0011'

24

24

48

'0100'

32

32

56

'0101'

40

40

64

'0110'

48

48

80

'0111'

56

56

96

'1000'

64

64

112

'1001'

Запрещено

80

128

'1010'

Запрещено

96

160

'1011'

Запрещено

112

192

'1100'

Запрещено

128

224

'1101'

Запрещено

144

256

'1110'

Запрещено

160

320

'1111'

Запрещено

Запрещено

Запрещено

5.2 Частота дискретизации

В зависимости от частоты дискретизации, сообщенной в AudioSpecificConfig, элемент данных sampling_frequency в заголовке должен быть установлен, как определено в таблице 2.

Таблица 2 - Установка элемента данных sampling_frequency в зависимости от частоты дискретизации, определенной в AudioSpecificConfig ()

sampling_frequency

Частота дискретизации

00

11,025 кГц и ее кратные

01

12 кГц и ее кратные

10

8 кГц и ее кратные

11

Зарезервировано

5.3 Дополнение

Дополнение необходимо при частоте дискретизации 11,025 кГц и ее кратных.

5.4 Полосы масштабного коэффициента

Подразделение спектра на scalefactor полосы фиксируется для каждого размера блока и частоты дискретизации и сохраняется в таблицах в кодере и декодере. Таблицы для частот дискретизации, не определенные в ГОСТ Р 54711 или ГОСТ Р 54712, определяются в приложении А. В соответствии с ГОСТ Р 54711 или ГОСТ Р 54712 масштабный коэффициент для частоты выше самой высокой строки в таблицах является нулем, что означает, что фактический фактор умножения равен 1,0.

Приложение А
(обязательное)


Таблицы полосы масштабного коэффициента

Таблица А.1 - Частота дискретизации 8 кГц, длинные блоки, число линий 576

Полоса масштабного коэффициента

Ширина полосы

index_of_start

index_of_end

0

12

0

11

1

12

12

23

2

12

24

35

3

12

36

47

4

12

48

59

5

12

60

71

6

16

72

87

7

20

88

107

8

24

108

131

9

28

132

159

10

32

160

191

11

40

192

231

12

48

232

279

13

56

280

335

14

64

336

399

15

76

400

475

16

90

476

565

17

2

566

567

18

2

568

569

19

2

570

571

20

2

572

573

Таблица А.2 - Частота дискретизации 8 кГц, короткие блоки, число линий 192

Полоса масштабного коэффициента

Ширина полосы

index_of_start

index_of_end

0

8

0

7

1

8

8

15

2

8

16

23

3

12

24

35

4

16

36

51

5

20

52

71

6

24

72

95

7

28

96

123

8

36

124

159

9

2

160

161

10

2

162

163

11

2

164

165

Таблицы А.3 - Частота дискретизации 11,025 кГц, длинные блоки, число линий 576

Полоса масштабного коэффициента

Ширина полосы

index_of_start

index_of_end

0

6

0

5

1

6

6

11

2

6

12

17

3

6

18

23

4

6

24

29

5

6

30

35

6

8

36

43

7

10

44

53

8

12

54

65

9

14

66

79

10

16

80

95

11

20

96

115

12

24

116

139

13

28

140

167

14

32

168

199

15

38

200

237

16

46

238

283

17

52

284

335

18

60

336

395

19

68

396

463

20

58

464

521

Таблица А.4 - Частота дискретизации 11,025 кГц, короткие блоки, число линий 192

Полоса scalefactor

Ширина полосы

index_of_start

index_of_end

0

4

0

3

1

4

4

7

2

4

8

11

3

6

12

17

4

8

18

25

5

10

26

35

6

12

36

47

7

14

48

61

8

18

62

79

9

24

80

103

10

30

104

133

11

40

134

173

Таблицы А.5 - Частота дискретизации 12 кГц, длинные блоки, число линий 576

Полоса масштабного коэффициента

Ширина полосы

index_of_start

index_of_end

0

6

0

5

1

6

6

11

2

6

12

17

3

6

18

23

4

6

24

29

5

6

30

35

6

8

36

43

7

10

44

53

8

12

54

65

9

14

66

79

10

16

80

95

11

20

96

115

12

24

116

139

13

28

140

167

14

32

168

199

15

38

200

237

16

46

238

283

17

52

284

335

18

60

336

395

19

68

396

463

20

58

464

521

Таблица А.6 - Частота дискретизации 12 кГц, короткие блоки, число линий 192

Полоса масштабного коэффициента

Ширина полосы

index_of_start

index_of_end

0

4

0

3

1

4

4

7

2

4

8

11

3

6

12

17

4

8

18

25

5

10

26

35

6

12

36

47

7

14

48

61

8

18

62

79

9

24

80

103

10

30

104

133

11

40

134

173

Приложение Б
(справочное)


Преобразование потоков битов MPEG-1/2, уровень 3, в элементы mp3_channel_elements

Использование битового накопителя обычно вызывает запуск появления main_data () в прошлом фрейме потока битов. Это следует изменить, перемещая main_data () сразу после его дополнительной информации. Каждый результирующий элемент mp3_channel_element отображается непосредственно в единицу доступа. Получающийся заголовок и дополнительная информация обозначаются как H' и SI' соответственно.

Все элементы данных header () должны быть сохранены. Элемент данных main_data_begin может быть обнулен. В этом случае CRC должно быть пересчитано.

Приложение В
(справочное)


Преобразование элементов mp3_channel_elements в потоки битов MPEG-1/2, уровень 3

В.1 Обзор

Элементы mp3_channel_elements, извлеченные из единицы доступа, должны подвергнуться следующим операциям преобразования, чтобы получить аудиопотоки битов MPEG-1/2, уровень 3, соответствующие ГОСТ Р 54711 или ГОСТ Р 54712:

- для каждого mp3_channel_element на устройство доступа открыть экземпляр декодера или выходной поток;

- для каждого mp3_channel_element в каждой единице доступа выполнить:

- восстановить syncword и IDех;

- скорректировать bitrate_index;

- отрегулировать main_data_begin;

- пересчитать crc_word;

- восстановить кадрирование.

В.2 Сигнализация о частоте дискретизации

Чтобы позволить использовать сигнализацию о частотах дискретизации, не определенных в ГОСТ Р 54711 или ГОСТ Р 54712, используется последний бит syncword. Это приводит к следующей модификации синтаксиса:

Синтаксис

Количество битов

Мнемоника

header ()

{

syncword;

11

bslbf

Idex;

1

bslbf

...

syncword Битовая строка '1111 1111 111'.

IDех Один бит, чтобы указать на расширенный ID алгоритма. Имеет значение '0' для частот дискретизации, не определенных в ГОСТ Р 54711 или ГОСТ Р 54712.

Следующая таблица определяет частоту дискретизации в зависимости от значений для IDех и ID:

IDех

ID

Частота дискретизации

0

0

8, 11,025, 12 кГц

1

0

16, 22,05, 24 кГц (см. ГОСТ Р 54712)

1

1

32, 44,1, 48 кГц (см. ГОСТ Р 54711)

В.3 Инструкции по воcстановлению

Этот процесс реконструкции предоставляет определенные степени свободы:

bitrate_index [чтобы отрегулировать длину фрейма потока битов согласно новым настройкам bitrate_index, частоте дискретизации и padding_bit, может потребоваться вставка битов (стаффинг)].

1) Установить максимально позволенное значение (сигнализация максимально позволенной длины фрейма потока битов).

2) Установить ближайшее более высокое значение, которое соответствует длине mp3_channel_element.

3) Установить ближайшее более высокое значение, которое соответствует длине mp3_channel_element минус main_data_begin текущего аудиофрейма.

4) main_data_begin обнулить.

5) Установить main_data_begin в значение, указывающее на конец main_data предыдущего аудиофрейма.

6) Установить корректное значение main_data_begin соответствующего потока битов MPEG-1/2, уровень 3.

7) Расположение наполнения (вставки битов) в конце main_data: сохраняет вспомогательные данные, записанные в прямом направлении, начиная после последней кодовой комбинации Хаффмана.

8) Расположение наполнения (вставки битов) в конце последней кодовой комбинации Хаффмана (расположение может быть вычислено, используя part_2_3_length): сохраняет вспомогательные данные, записанные в обратном направлении, начиная перед main_data следующего фрейма.

9) Никакое наполнение не требуется: сохраняет любые вспомогательные данные.

В зависимости от требований скорости передачи и вспомогательной обработки данных эти возможности могут быть объединены несколькими способами.

Самый простой метод устанавливает максимальную величину скорости передачи. Это препочтительный метод, когда питание существующих декодеров MPEG-1/2, уровень 3, main_data_begin обнуляется. Биты стаффинга добавляются до или после вспомогательных данных.

Более передовой метод можно получить из этого простого метода, устанавливая bitrate_index в ближайшее более высокое значение, которое соответствует длине mp3_channel_element. С этой модификацией скорость передачи может быть значительно уменьшена.

Для частот дискретизации до 24 кГц (то есть в случаях, где одна гранула формирует фрейм), размер гранулы может превысить максимальный размер фрейма. Максимальный индекс скорости передачи может не позволить хранить целый фрейм после заголовка (main_data_begin=0). Это следует из того факта, что максимальная длина гранулы составляет 960 байтов (7680 битов), но максимальная длина фрейма, основанная на самом высоком индексе скорости передачи, составляет 576 байтов (для 8 кГц), 417 байтов (для 11,025 кГц), 384 байта (для 12 кГц), 720 байтов (для 16 кГц), 522 байта (для 22,05 кГц), 480 байтов (для 24 кГц). В этом случае main_data_begin должен быть должным образом скорректирован между нулем и различием между максимальным размером гранулы и максимальной длиной фрейма.

Чтобы избежать необходимости стаффинга и неопределенности, main_data_begin устанавливается в значение, указывающее на конец main_data предыдущего фрейма. bitrate_index устанавливается в ближайшее более высокое значение, которое соответствует длине mp3_channel_element минус main_data_begin текущего аудиофрейма. Только если main_data_begin превысит дозволенное значение, должен быть выполнен стаффинг.

Исходный поток битов уровня 3 отлично может быть восстановлен, если корректное значение main_data_begin соответствующего потока битов MPEG-1/2, уровень 3, было сохранено.

Приложение Г
(справочное)


Интерфейс унаследованных систем MPEG-4 в MPEG-1/2 Audio

Г.1 Обзор

Это приложение обеспечивает помощь в использовании decSpecificlnfo и accessUnit, чтобы применять MPEG-1/2, уровень 1, 2, 3, и MPEG 2 ААС в MPEG-4, используя следующие значения objectTypelndication:

- 0х6b (ГОСТ Р 54711);

- 0x69 (ГОСТ Р 54712);

- 0x66 (ГОСТ Р 54712, основной профиль);

- 0x67 (ГОСТ Р 54712, профиль малой сложности);

- 0x68 (ГОСТ Р 54712, профиль масштабируемой частоты дискретизации).

Г.2 Специальная информация о декодере

В ГОСТ Р 53556.1 decSpecificlnfo определяется для некоторой информации о декодере носителей информации. Эта специальная информация о декодере составляет непрозрачный контейнер с информацией для специального медиадекодера (декодера носителей). При ее наличии, она может использоваться для инициализации декодера и априорной реализации наборщика. Нет необходимости определять эту специальную информацию декодера. Ее существование и семантика зависят от значений DecoderConfigDeschptor.streamType и DecoderConfigDescriptor.objectTypelndication.

Нехватка доступности любого decSpecificlnfo приводит к ситуации, когда формат памяти композиции нельзя априорно различить, чтобы реализовать наборщиком. Следовательно, декодер определяет формат памяти композиции.

Г.2.1 MPEG-2 ААС

Для MPEG-2 ААС определяется decSpecificlnfo, то есть в случае значений DecoderConfigDescriptor.objectTypelndication, которые обращаются к потокам, удовлетворяющим ГОСТ Р 54712.

В этом случае аудиодекодеры получают всю релевантную информацию от этого decSpecificlnfo, которая состоит из adif_header (), и могут переслать формат памяти композиции в память композиции.

Г.2.2 MPEG-1 Audio и MPEG-2 Audio

Для MPEG-1 Audio и MPEG-2 Audio никакой decSpecificlnfo не определяется, то есть в случае значений DecoderConfigDescriptor.objectTypelndication, которые относятся к потокам, соответствующим ГОСТ Р 54711 и ГОСТ Р 54712. В этих случаях аудиодекодеры получают всю значимую информацию в элементе 'header()' их собственного потока битов и могут передать формат памяти композиции в память композиции. Таким образом, динамически внося изменения в выходном формате, необходимые для того, чтобы иметь дело с ним, то есть без элементарного обновления дескриптора потока.

Г.3 Единицы доступа

Фрейм MPEG-1/2 уровней 1, 2 или 3 (данные между синхронизирующими словами) или фрейм MPEG-2 ААС (raw_data_block) могут быть обработаны как единицы доступа аудио не только в контексте ГОСТ Р 54711 и ГОСТ Р 54712, но также и в контексте настоящего стандарта.

При обработке фреймов MPEG-1/2 уровней 1, 2, 3 или MPEG-2 ААС как единиц MPEG-4, единицам доступа присваивается информация синхронизации.

Так как определения единицы аудиодоступа точно не соответствуют между MPEG-1/2 и MPEG-4, то нужно принимать во внимание некоторые специальные соображения.

В частности, для уровня 3 единица аудиодоступа определяется в MPEG-1/2 как часть потока битов, которая может быть декодирована только с использованием ранее полученной основной информации, которая не отражает определение единицы аудиодоступа в MPEG-4.

Впоследствии некоторые единицы аудиодоступа могут быть не декодированы из-за нехватки некоторой потерянной основной информации в случае перфораций в потоке битов и произвольного доступа. Однако информация синхронизации сохраняется правильно.

В случае, когда считают необходимым иметь лучшее редактирование или возможности вставки перфораций для потоков уровня 3, желательно использовать потоки, закодированные VBR. Существует возможность преобразовать любой существующий поток уровня 3 в поток VBR:

- однозначно;

- полностью совместимый с MPEG-1 или MPEG-2;

- декодируемый любым существующим декодером уровня 1, 2 или 3.

Это можно сделать следующим образом:

- main_data () для единственного фрейма помещается непосредственно рядом с его дополнительной информацией. Указатель main_data_begin обнуляется. Фрейм за фреймом индексы скорости передачи (bitrate_index) увеличиваются до минимального значения, нужного, чтобы получить длину фрейма, которая может разместить исходный заголовок, error_check, дополнительную информацию и основные данные. Из-за гранулярности в доступных скоростях передачи обычно эта длина фрейма больше, чем длина заголовка, error_check, дополнительная информация и основные данные. В этом случае в конце main_data добавляются биты стаффинга, чтобы получить совместимые фреймы.

Библиография

[1]

ИСО/МЭК 14496-3:2009

Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Звуковое кодирование (ISO/IЕС 14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio)

________________

Заменен на ISO/IEC 14496-3:2019.

УДК 621.396:006.354

ОКС 33.170

Ключевые слова: звуковое вещание, электрические параметры, каналы и тракты, технологии MPEG-кодирования, синтетический звук, масштабирование, защита от ошибок, поток битов расширения, психоакустическая модель

Электронный текст документа

и сверен по:

, 2020