ГОСТ Р 71487.7-2024 Цифровая промышленность. Качество промышленных данных. Часть 81. Оценка качества промышленных данных. Профилирование

Обложка ГОСТ Р 71487.7-2024 Цифровая промышленность. Качество промышленных данных. Часть 81. Оценка качества промышленных данных. Профилирование
Обозначение
ГОСТ Р 71487.7-2024
Наименование
Цифровая промышленность. Качество промышленных данных. Часть 81. Оценка качества промышленных данных. Профилирование
Статус
Принят
Дата введения
2025.07.01
Дата отмены
-
Заменен на
-
Код ОКС
25.040.40

ФЕДЕРАЛЬНОЕ АГЕНТСТВО

ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСТ Р

71487.7-

2024 (ISO/TS 8000-81:2021)

Цифровая промышленность

КАЧЕСТВО ПРОМЫШЛЕННЫХ ДАННЫХ

Часть 81

Оценка качества промышленных данных. Профилирование

(ISO/TS 8000-81:2021, Data quality — Part 81: Data quality assessment: Profiling, MOD)

Издание официальное

Москва Российский институт стандартизации 2024

ГОСТ Р 71487.7—2024

Предисловие

1 ПОДГОТОВЛЕН ФГБУ «Институт стандартизации» на основе собственного перевода на русский язык англоязычной версии документа, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 459 «Информационная поддержка жизненного цикла изделий»

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 24 октября 2024 г. № 1496-ст

4 Настоящий стандарт является модифицированным по отношению к международному документу ISO/TS 8000-81:2021 «Качество данных. Часть 81. Оценка качества данных: профилирование» (ISO/TS 8000-81:2021 «Data quality — Part 81: Data quality assessment: Profiling», MOD) путем изменения отдельных фраз (слов, ссылок), которые выделены в тексте курсивом. При этом в него не включено приложение А примененного международного документа, которое нецелесообразно (преждевременно) применять в российской национальной стандартизации в связи с приведенными в них примерами зарубежных практик в области цифровой промышленности, использование которых в национальной системе стандартизации без значительной адаптации не представляется возможным.

Указанное приложение, не включенное в основную часть настоящего стандарта, приведено в дополнительном приложении ДА.

Наименование настоящего стандарта изменено относительно наименования указанного международного документа для приведения в соответствие с ГОСТ Р 1.5—2012 (пункт 3.5).

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном документе, приведены в дополнительном приложении ДБ.

Сопоставление структуры настоящего стандарта со структурой указанного международного документа приведено в дополнительном приложении ДВ

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ «О стандартизации в Российской Федерации». Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок — в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)

© ISO, 2021 © Оформление. ФГБУ «Институт стандартизации», 2024

Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

II

ГОСТ Р 71487.7—2024

Содержание

1 Область применения..................................................................1

2 Нормативные ссылки..................................................................1

3 Термины и определения...............................................................2

4 Профилирование данных..............................................................2

5 Структурный анализ..................................................................2

5.1 Входные данные..................................................................2

5.2 Сфера деятельности..............................................................3

5.3 Выходные данные.................................................................3

6 Анализ столбцов.....................................................................3

6.1 Входные данные..................................................................3

6.2 Сфера деятельности..............................................................3

6.3 Выходные данные.................................................................3

7 Анализ взаимоотношений..............................................................3

7.1 Входные данные..................................................................3

7.2 Сфера деятельности..............................................................3

7.3 Выходные данные.................................................................4

Приложение А (справочное) Ограничения области значений..................................5

Приложение В (справочное) Взаимозависимость...........................................7

Приложение ДА (справочное) Идентификатор документа....................................9

Приложение ДБ (справочное) Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном документе.................................10

Приложение ДВ (справочное) Сопоставление структуры настоящего стандарта со структурой примененного в нем международного документа.................11

Библиография........................................................................12

III

ГОСТ Р 71487.7—2024

Введение

Формирование, развитие и реализация процессов цифровой трансформации определили необходимость внедрения новых подходов и моделей в области создания эффективных производственных систем и формирования экосистемы цифровой промышленности. Основополагающие принципы цифровой промышленности изложены в концепции Индустрия 4.0, получившей широкое признание и реализуемой во многих развитых странах мира. Практическая реализация новых подходов и моделей в области создания умных производств и цифровых предприятий (фабрик), предусматривающая необходимость новых форм цифрового взаимодействия организаций для формирования цепей добавленной стоимости, обусловила необходимость разработки и применения большого числа стандартов (международных, региональных, межгосударственных, национальных стандартов и стандартов организаций).

Настоящий стандарт входит в серию национальных стандартов под общим наименованием «Цифровая промышленность», имеющей важное значение для обеспечения технологического суверенитета и повышения конкурентоспособности отечественной промышленности с применением системного подхода, в том числе методов опережающей стандартизации требований к ключевым компонентам формируемой экосистемы цифровой промышленности. Разрабатываемые в рамках данной серии стандарты имеют высокий уровень гармонизации с международными стандартами и учитывают специфику развития и перспективные потребности отечественной промышленности и сектора информационных технологий.

Использование цифровых данных позволяет улучшить все аспекты организационной деятельности, включая:

- операционную эффективность и результативность;

- безопасность;

- репутацию у клиентов и широкой общественности;

- соблюдение законодательных норм;

- потребительские расходы, выручку и цены акций.

Влияние на производительность исходит от данных, являющихся формализованным представлением информации, которая позволяет организациям принимать надежные решения. Принятие решений может осуществляться людьми напрямую, а также с помощью автоматизированной обработки данных, включая системы искусственного интеллекта.

Благодаря широкому внедрению цифровых вычислений и связанных с ними коммуникационных технологий организации становятся зависимыми от цифровых данных. Эта зависимость усиливает негативные последствия отсутствия качества этих данных. Эти последствия заключаются в снижении организационной эффективности.

Наибольшее влияние цифровых данных исходит от данных, имеющих структуру, отражающую характер предмета, и от того, что данные также могут быть обработаны компьютером (машиночитаемы), а не просто предназначены для чтения и понимания человеком.

Согласно ГОСТ Р ИСО 9000 качество не является абстрактным понятием абсолютного совершенства. Качество на самом деле представляет собой соответствие характеристик требованиям, и, таким образом, любой элемент данных может быть высокого качества для одного использования, но не для другого использования, к которому предъявляются другие требования.

Пример — При сохранении времени начала совещаний приложение календаря требует меньшей точности, чем система управления для хранения времени включения двигательной установки во время космического полета.

Природа цифровых данных имеет основополагающее значение для установления требований, относящихся к конкретным решениям, принимаемым каждой организацией.

Пример — ГОСТ Р 56214 определяет, что данные имеют синтаксические (формат), семантические (значение) и прагматические (полезность) характеристики.

Для обеспечения пользователей высококачественными данными серия стандартов на цифровую промышленность описывает:

- управление данными, управление качеством данных и оценку зрелости.

Пример — ГОСТ Р 71487.1 определяет эталонную модель процесса для управления качеством данных;

- создание и применение требований к данным и информации.

IV

ГОСТ Р 71487.7—2024

Пример — ГОСТ Р ИСО 8000-110 определяет, как обмениваться характеристическими данными, которые являются основными данными;

- мониторинг и измерение качества данных и информации.

Пример — [1] определяет подходы к измерению качества данных и информации;

- улучшение данных и, следовательно, качества информации.

Пример — Настоящий стандарт определяет подход к профилированию данных, который определяет возможности улучшения качества данных;

- проблемы, характерные для типа контента в совокупности данных.

Пример — [2] определяет, как учитывать требования к качеству для данных о форме продукта.

Управление качеством данных охватывает все аспекты обработки данных, включая создание, сбор, хранение, обслуживание, передачу, использование и представление данных для предоставления информации.

Эффективное управление качеством данных носит системный и систематический характер и требует понимания коренных причин проблем с качеством данных. Это понимание является основой не только для исправления существующих несоответствий, но и для реализации решений, которые предотвращают повторение этих несоответствий в будущем.

Пример — Если совокупность данных включает даты в нескольких форматах, включая «гггг-мм-дд», «мм-дд-гг» и «дд-мм-гг», то очистка данных может исправить согласованность значений. Однако такая очистка требует дополнительной информации для разрешения неоднозначных записей (например, «04-05-20») и не может решить какие-либо проблемы с процессом и людьми, включая обучение, которые вызвали несоответствие.

В качестве вклада в эти общие возможности серии стандартов на цифровую промышленность настоящий стандарт определяет подход к профилированию данных, который включает применение методов анализа к фактически используемым данным. Этот анализ создает профиль, состоящий из структуры, столбцов и взаимосвязей данных. Профиль обеспечивает основу для определения возможностей улучшения качества данных путем установления новых явных правил для данных. Этот подход также обычно дает больший эффект от многократного применения для постепенного выявления проблем.

Организации могут использовать настоящий стандарт отдельно или в сочетании с другими частями серии стандартов на цифровую промышленность.

Настоящий стандарт описывает действия, которые влияют:

- на одну или несколько информационных систем;

- потоки данных внутри организации и с внешними организациями;

- любые фазы жизненного цикла данных.

Внедряя части серии стандартов на цифровую промышленность, организация получает следующие преимущества:

- создание надежных основ цифровой трансформации;

- признание того, как данные в цифровой форме стали фундаментальным классом активов, на который полагаются организации для создания ценности;

- обеспечение основанной на фактических данных достоверности данных и информации для всех заинтересованных сторон;

- создание переносимых данных, защищающих от потери интеллектуальной собственности и допускающих повторное использование в организации и приложениях;

- достижение прослеживаемости данных до первоисточников;

- обеспечение того, чтобы все заинтересованные стороны работали с общим пониманием явных требований к данным.

ГОСТ Р 56214 предоставляет подробное объяснение структуры и области действия серии стандартов на цифровую промышленность.

V

ГОСТ Р 71487.7—2024 (ISO/TS 8000-81:2021)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Цифровая промышленность

КАЧЕСТВО ПРОМЫШЛЕННЫХ ДАННЫХ

Часть 81

Оценка качества промышленных данных. Профилирование

Data industrial quality. Part 81. Data industrial quality assessment. Profiling

Дата введения — 2025—07—01

1 Область применения

Настоящий стандарт определяет процедуру профилирования данных для создания основы выполнения оценки качества данных. Профилирование применимо к совокупностям данных, которые либо изначально находятся в структуре таблиц и столбцов, либо являются результатом преобразования для создания такой структуры.

Примечание — Профилирование данных применимо ко всем типам технологий баз данных.

Настоящий стандарт описывает:

- структурный анализ для определения концепций элементов данных;

- анализ столбцов для определения соответствующих элементов данных, включая статистику по совокупности данных;

- анализ взаимоотношений для выявления зависимостей в совокупности данных.

Настоящий стандарт не распространяется:

- на методы извлечения и выборки данных для профилирования из совокупности данных;

- получение правил данных;

- измерение степени несоответствий в совокупности данных.

Примечание — [1] определяет подходы к измерению качества данных и информации.

Настоящий стандарт можно использовать вместе со стандартами на системы менеджмента качества или независимо от них.

2 Нормативные ссылки

В настоящем стандарте использована нормативная ссылка на следующий стандарт:

ГОСТ Р ИСО 8000-2 Качество данных. Часть 2. Словарь

Примечание — При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю «Национальные стандарты», который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя «Национальные стандарты» за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана дати-

Издание официальное

1

ГОСТ Р 71487.7—2024

рованная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

3 Термины и определения

В настоящем стандарте применены термины по ГОСТ Р ИСО 8000-2.

4 Профилирование данных

Целью профилирования данных является определение структуры, столбцов и взаимосвязей совокупности данных.

Эта характеристика представляет собой профиль данных, который служит основой, на которой организация может улучшить качество данных. Улучшение может включать создание правил для обеспечения выполнения соответствующих требований к данным.

Профилирование данных состоит из следующих процессов (см. рисунок 1):

- выполнение структурного анализа (см. раздел 5);

- выполнение анализа столбцов (см. раздел 6);

- выполнение анализа взаимоотношений (см. раздел 7).

Примечание — См. [4] для получения подробной информации об обозначениях, используемых на этой схеме.

Рисунок 1 — Выполнение профилирования данных

5 Структурный анализ

5.1 Входные данные

Входными данными для структурного анализа является совокупность данных, которая состоит из значений данных в одном или нескольких столбцах и, при необходимости, вспомогательной информации, такой как имя и описание каждого столбца.

2

ГОСТ Р 71487.7—2024

5.2 Сфера деятельности

Структурный анализ состоит:

- из извлечения концептуальных данных из значений данных и любой вспомогательной информации;

- определения концепции элемента данных для использования в анализе столбцов (см. раздел 6).

5.3 Выходные данные

Результатом структурного анализа является концепция элементов данных.

6 Анализ столбцов

6.1 Входные данные

Входными данными для анализа столбцов являются совокупность данных и соответствующее понятие элемента данных из структурного анализа (см. раздел 5).

6.2 Сфера деятельности

Анализ столбцов состоит:

- из извлечения элементов данных из концепции элемента данных;

- сравнения элементов данных со значениями в совокупности данных;

- определения области значений.

Примечание — Методы извлечения элементов данных включают обнаружение, проверку утверждений и визуальную проверку. Эти методы могут поддерживаться автоматизированными инструментами.

6.3 Выходные данные

Результатом анализа столбцов является список ограничений области значений. Эти ограничения включают следующее (см. приложение А для более подробной информации):

- количество элементов: количество строк, диапазон значений, нули, количество различных значений и уникальность;

- хранение: тип данных, длина значений и десятичных разрядов;

-допустимые значения: список дискретных значений, допустимый диапазон, правила пропуска, шаблон и область значений.

7 Анализ взаимоотношений

7.1 Входные данные

Входными данными для анализа взаимоотношений являются совокупность данных и соответствующие элементы данных из анализа столбцов (см. раздел 6).

Примечание — Анализ взаимоотношений извлекает связи между столбцами не только в одной таблице, но и в нескольких таблицах.

7.2 Сфера деятельности

Анализ взаимоотношений состоит:

- из сравнения извлеченных элементов данных с любой вспомогательной информацией в совокупности данных;

- определения зависимости.

Примечание — При выполнении анализа взаимоотношений ключевым требованием является понимание соответствия между структурой данных (таблицы и столбцы) и элементами реального мира. Это понимание возникает из-за того, что специалисты по профилированию данных сотрудничают с экспертами, которые работают с основными процессами организации. Эти эксперты знакомы с деталями процессов, представленных данными.

3

ГОСТ Р 71487.7—2024

7.3 Выходные данные

Результатом анализа взаимоотношений является список зависимостей, который включает следующее (дополнительную информацию см. в приложении В):

- взаимозависимости столбцов: первичный ключ, внешний ключ, функциональная зависимость и производный столбец;

- синонимы: синоним первичного/внешнего ключа, синоним избыточных данных и синоним области значений.

4

ГОСТ Р 71487.7—2024

Приложение А (справочное)

Ограничения области значений

К совокупностям цифровых данных применяют следующие ограничения области значений:

- количество элементов фиксирует общий диапазон значений в столбце (см. таблицу А. 1). Этот диапазон устанавливает основу для определения потенциально недопустимых значений, поскольку они не согласуются с остальными значениями в столбце;

- правила хранения — это характеристика основных правил синтаксиса значений в столбце (см. таблицу А.2). Эти правила могут быть наложены соответствующей автоматизированной функциональностью информационной системы, хотя на практике часто такая функциональность отсутствует;

- корректные значения представляют собой ограниченную область допустимых значений в столбце (см. таблицу А.З). Эти ограничения могут быть более точными, если предмет данных столбца более узкий.

Пример — Обычно температура столбца содержит более широкий диапазон значений, чем температура столбца в градусах Цельсия, поскольку первая может также включать значения в градусах Фаренгейта.

Таблица А.1 — Ограничения области значений: количество элементов

Ограничение

Описание

Роль

Пример

Количество строк

Общее количество отдельных значений в столбце, включая пустые значения и дубликаты

Устанавливает знаменатель для любых расчетов отношения отдельных значений к общей численности населения

Результат, выраженный одним целым числом (например, 3177)

Диапазон значений

Статистическая характеристика совокупности значений в столбце

Устанавливает базовое понимание данных, находящихся в настоящее время в столбце

Результаты для минимума, максимума, медианы и среднего значений в столбце

Нули

Количество значений, не содержащих данных (т. е. пустых или других подобных представлений об отсутствии данных)

Помогает узнать, имеет ли столбец обязательный, необязательный или условный атрибут

Результат, выраженный в виде абсолютного числа (например, 2769)значений,которые являются нулевыми.

Результат, выраженный в процентах (от 0 % до 100 %) нулевых значений

Количество различных значений

Размер набора значений после удаления всех повторяющихся значений, кроме одного

Помогает обнаружить область данных столбца

Когда полный набор значений в столбце состоит из «100», «100», «200», «200» и «300», тогда результат равен 3

Уникальность

Степень уникальности каждого значения в столбце

Помогает обнаруживать столбцы, содержащие первичные ключи

Результат, выраженный в процентах (от 0 % до 100 %) уникальных значений

Таблица А.2 — Ограничения области значений: хранение

Ограничение

Описание

Роль

Пример

Тип данных

Природа значения

Приводит все значения к одному типу

Ограничения столбца CHARACTER, INTEGER, DECIMAL, DATE, TIME, TIMESTAMP, BINARY и DOUBLEBYTE

Длина значений

Количество цифр или символов, которые могут образовываться в значении

Ограничивает длину (как абсолютную, так и максимальную)

Ограничения столбца VARIABLE, FIXED 5 и NUMERIC 5

Десятичные

Максимальное количество знаков после запятой для числовых значений

Обеспечивает точность, соответствующую использованию данных

Ограничение столбца DECIMAL 2

5

ГОСТ Р 71487.7—2024

Таблица АЗ — Ограничения области значений: допустимые значения

Ограничение

Описание

Роль

Пример

Список дискретных значений

Список небольшого количества конкретных значений

Не позволяет пользователям вводить уровни детализации, которые не подходят для использования данных

Для информационной системы, регистрирующей пропавшие предметы багажа для авиакомпании, в качестве цвета столбца пропавшего багажа указываются только простые цвета, такие как «черный», «синий» и «коричневый»

Допустимый диапазон

Определяет допустимые значения, лежащие между минимумом и максимумом

Ограничивает значения диапазоном, который отражает природу элемента, описываемого данными

Для информационной системы, регистрирующей погодные условия на Земле, от «-100» до «+100» для диапазона столбца температуры наружного воздуха (градусы Цельсия)

Правила пропуска

Исключает определенные значения

Ограничивает диапазон значений в столбце

Для информационной системы поддержки курьерской компании, доставляющей посылки в рабочие дни, за исключением выходных и праздничных дней из графы ожидаемая дата доставки

Шаблон

Определяет синтаксис для значения с точки зрения допустимых диапазонов символов в отдельных позициях внутри значения

Не гарантируя существования значения, не позволяет пользователю ввести значение, принципиально неверное для столбца

Для информационной системы, записывающей контактные данные лиц, принимаются только значения с шаблоном <имя> «@» <полное доменное имя> в столбце «адрес электронной почты» — (т. е. требуется дополнительная проверка, чтобы выявить, действительно ли существует каждый адрес электронной почты)

Область значений

Набор уникальных, различных допустимых значений

Ограничивает значения значениями, соответствующими характеру элемента, идентифицируемого данными

Допустимые значения «мужской» и «женский» для столбца «пол».

Допустимые значения для столбца типа кредитной карты, соответствующие компаниям, предоставляющим услуги по обработке кредитных карт

6

ГОСТ Р 71487.7—2024

Приложение В (справочное)

Взаимозависимость

Взаимозависимость может существовать между двумя или более столбцами в совокупности данных. Есть две основные категории взаимозависимости:

- взаимозависимости столбцов (см. таблицу В. 1), где отношения между столбцами поддерживают согласованность структуры совокупности данных;

- синонимы (см. таблицу В.2), где столбцы представляют один и тот же элемент в реальном мире.

Таблица В.1 — Взаимозависимости столбцов

Зависимость

Описание

Роль

Пример

Основной ключ

Один или несколько столбцов, которые однозначно определяют каждую строку таблицы

Идентифииирует каждую строку таблицы, обеспечивая связи из других таблиц в совокупности данных

НОМЕР СОЦИАЛЬНОГО СТРАХОВАНИЯ PERSONJD

Внешний ключ

Один или несколько столбцов в зависимой таблице, которые идентифицируют строку в родительской таблице

Устанавливает родитель-ские/зависимые отношения между двумя таблицами

В отделах зависимой таблицы столбец DEPT_MANAGER_ID является внешним ключом, относящимся к первичному ключу PERSON_ID в родительской таблице staff

Функциональная зависимость

Столбец имеет функциональную зависимость от одного или нескольких других столбцов в той же таблице, если значение определяется значениями в одном или нескольких других столбцах

Указывает, что значение столбца не является независимым от других столбцов в таблице

Значения в столбцах ТЕМР_ DEG_CELSIUS и TEMP_DEG_ FAHRENHEIT зависят от формулы преобразования температуры

Производный столбец

Столбец — это выходные данные функции, которая принимает значения из одного или нескольких других столбцов в качестве входных данных

Обеспечивает основу, на которой можно избежать хранения избыточных данных и вместо этого генерировать значения по алгоритму, выполняемому информационной системой

Пользовательский интерфейс принимает температуру в градусах Цельсия в качестве входных данных, сохраняет это значение в столбце TEMP_DEG_CELSIUS и генерирует значение для ТЕМР_ DEG_FAHRENHEIT, которое является производным столбцом

Таблица В.2 — Синонимы

Зависимость

Описание

Роль

Пример

Синоним первичного/ внешнего ключа

Когда столбец является первичным ключом, а другой столбец — внешним ключом, эти два столбца являются синонимами первичного/внешнего ключа

Задает отношение роди-тель/зависимость между двумя таблицами

В отделах зависимой таблицы столбец DEPT_MANAGER_ID является внешним ключом, относящимся к первичному ключу PERSON_ID в родительской таблице staff. Эти два столбца являются синонимами первичного/ внешнего ключа

Синоним избыточных данных

Если один столбец является синонимом другого столбца в другой таблице, и когда столбец зависит от ключа, а также зависит от соответствующего внешнего ключа в другой таблице, два столбца находятся в отношениях синонима избыточных данных

Предоставляет основу для перенастройки информационной системы для отображения значений на основе поиска данных, а не дублированного хранения этих значений

Имея возможность просматривать описание продукта в записи заказа, лицо, обрабатывающее заказ, может с большей легкостью подтвердить детали заказа. Однако это описание является общим значением, которое хранится в таблице products (см. рисунок В. 1)

7

ГОСТ Р 71487.7—2024

Окончание таблицы В. 2

Зависимость

Описание

Роль

Пример

Синоним области данных

Когда два столбца являются синонимами области данных, область данных одного столбца совпадает с областью данных другого столбца

Эти столбцы относятся к одним и тем же элементам реального мира и, таким образом, дают возможность установить один и тот же механизм для определения и управления значениями в каждом столбце

Таблицы Customers и Employees включают столбец CITY (см. рисунок В.2)

<table>

Orders

Эти два столбца

Products

<column>

8

содержат одинаковую

PRODUCTJD

информацию и,

DESCRIPTION

следовательно, являются

UNIT_PRICE

синонимами избыточных

UNIT_OF_MEASURE

данных

...

Рисунок В.1 — Пример синонима избыточных данных

Customers

Эти два столбца содержат одинаковые области данных

Employees

к.

EMPLOYEEJD

и, следовательно.

ADDRESS

являются синонимами области данных

CITY

Рисунок В.2 — Пример синонима области данных

ГОСТ Р 71487.7—2024

Приложение ДА (справочное)

Идентификатор документа

Для обеспечения однозначной идентификации информационного объекта в открытой системе настоящему стандарту присваивается идентификатор объекта

{ИСО стандарт 8000 часть (81) версия (1)}

Определение этого значения дано в ИСО/МЭК 8824-1 и описано в ИСО 10303-1.

9

ГОСТ Р 71487.7—2024

Приложение ДБ (справочное)

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном документе

Таблица ДБ.1

Обозначение ссылочного национального стандарта

Степень соответствия

Обозначение и наименование ссылочного международного стандарта

ГОСТ Р ИСО 8000-2—2019

IDT

ISO 8000-2:2018 «Качество данных. Часть 2. Словарь»

Примечание — В настоящей таблице использовано следующее условное обозначение степени соответствия стандарта:

- IDT — идентичный стандарт.

10

Таблица ДВ.1

ГОСТ Р 71487.7—2024

Приложение ДВ (справочное)

Сопоставление структуры настоящего стандарта со структурой примененного в нем международного документа

Структура настоящего стандарта

Структура международного документа ISO/TS 8000-81:2021

Приложения

Приложения

А

А

В

В

С

ДА

ДБ

ДВ

Библиография

Библиография

Примечание — Сопоставление структуры стандартов приведено, начиная с приложений, т. к. предыдущие разделы (за исключением предисловия) идентичны.

11

ГОСТ Р 71487.7—2024

Библиография

[1] ИСО 8000-8:2015

Качество данных. Часть 8. Качество информации и данных: концепции и измерение

(Data quality — Part 8: Information and data quality: Concepts and measuring)

[2] ISO/TS 8000-311:2012

Качество данных. Часть 311. Руководство по применению качества данных о продукте для формы (PDQ-S)

(Data quality — Part 311: Guidance for the application of product data quality for shape (PDQ-S))

[3] ISO/TS 8000-81:2021

Качество данных. Часть 81. Оценка качества данных: профилирование (Data quality — Part 81: Data quality assessment: Profiling)

[4] ISO/IEC/IEEE 31320-1:2012

Информационные технологии — Языки моделирования — Часть 1: Синтаксис и семантика для IDEF0

(Information technology — Modeling Languages — Part 1: Syntax and Semantics for IDEF0)

12

ГОСТ Р 71487.7—2024

УДК 681.3.01.016:006.354 ОКС 25.040.40

Ключевые слова: цифровая промышленность, промышленные данные, качество данных, оценка качества, профилирование

13

Редактор Л.В. Каретникова Технический редактор И.Е. Черепкова Корректор Р.А. Ментова Компьютерная верстка Л.А. Круговой

Сдано в набор 12.11.2024. Подписано в печать 06.12.2024. Формат 60x84%. Гарнитура Ариал. Усл. печ. л. 2,32. Уч.-изд. л. 1,86.

Подготовлено на основе электронной версии, предоставленной разработчиком стандарта

Создано в единичном исполнении в ФГБУ «Институт стандартизации» , 117418 Москва, Нахимовский пр-т, д. 31, к. 2.