ГОСТ Р 71686-2024
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Искусственный интеллект
МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОВЕДЕНИЯ КОСВЕННЫХ ИЗМЕРЕНИЙ СВОЙСТВ МАТЕРИАЛОВ
Общие положения
Artificial intelligence. Machine learning models for making indirect measurements of material properties. General provisions
ОКС 35.020
35.240.99
Дата введения 2025-01-01
Предисловие
1 РАЗРАБОТАН Федеральным государственным бюджетным учреждением "Российский институт стандартизации" (ФГБУ "Институт стандартизации")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 11 октября 2024 г. № 1436-ст
4 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Введение
Обученные модели машинного обучения демонстрируют потенциал для определения того, какие косвенные механические свойства коррелируют с трещиностойкостью материала. Наилучшие значения характерны для модулей изгиба и растяжения. Также наблюдается хорошая корреляция с трещиностойкостью с модулями упругости при сжатии и с прочностью при растяжении.
Для повышения точности оценки свойств материалов по результатам косвенных измерений целесообразно разработать общие положения к моделям машинного обучения.
Установленные в настоящем стандарте общие положения определяют порядок подготовки набора данных и моделей машинного обучения, используемых при измерении физико-механических свойств неметаллических материалов.
Общие положения будут востребованы при разработке изделий новой техники в области автодорожной инфраструктуры, контейнерных грузоперевозок, сервисного оборудования транспортного машиностроения.
1 Область применения
Настоящий стандарт устанавливает общие положения к разработке (обучению и тестированию), верификации и эксплуатации моделей машинного обучения для косвенных измерений свойств материалов. Стандарт применим для измерений, в которых функция преобразования (функция измерений) средства измерений неизвестна априори и/или не может быть определена в силу ее сложности.
Настоящий стандарт предназначен для использования организациями и специалистами, занимающимися разработкой, испытаниями и эксплуатацией средств измерений на основе искусственного интеллекта и машинного обучения для определения свойств материалов, используемых в различных отраслях промышленности и исследованиях. Настоящий стандарт не распространяется на модели машинного обучения для проведения прямых измерений свойств материалов или для других целей, не связанных с измерениями.
2 Нормативные ссылки
В настоящем стандарте использована нормативная ссылка на следующий стандарт:
ГОСТ Р 59277-2020 Системы искусственного интеллекта. Классификация систем искусственного интеллекта
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
3 Термины, определения и сокращения
3.1 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1.1
входные данные (input data): Данные, для которых развертываемая модель машинного обучения вычисляет прогнозируемый результат или вывод. |
Примечание - Специалисты по машинному обучению также называют входные данные данными вне выборки, новыми данными и производственными данными. |
[ГОСТ Р 70462.1-2022, пункт 3.3] |
3.1.2
измерять (measure) (глагол): Производить измерение. [ГОСТ Р ИСО/МЭК 25000-2021, пункт 4.19] |
3.1.3 значение величины: Число с указанием основы для сравнения, выражающее размер величины.
Примечание - См. [1], пункт 1.19.
Примеры
1 Толщина материала: 0,65 мм.
2 Сила упругости: 10 Н.
3 Коэффициент Пуассона: 0,27.
4 Напряжение сдвига: 5,88 МПа.
3.1.4
функция измерения (measurement function): Алгоритм или вычисление, выполняемое для комбинации не менее чем двух элементов показателя качества. [ГОСТ Р ИСО/МЭК 25021-2014, пункт 4.7] |
3.1.5
элемент данных (ЭД) [data element, (DE)]: Единица данных, для которой с помощью набора атрибутов заданы определение, идентификация, представление и допустимые значения. [ГОСТ Р ИСО/МЭК 11179-1-2010, пункт 3.3.8] |
Примечания
1 Поле считается синонимом ЭД.
2 ЭД - это физический объект, "контейнер" значений данных (см. [2]*, пункт 4.9).
3.1.6
тип данных (datatype): Множество различающихся значений, охарактеризованных свойствами этих значений и операциями над ними. [ГОСТ Р ИСО/МЭК 11179-1-2010, пункт 3.3.11] |
Примечание - Примерами типов данных являются строки символов, тексты, даты, числа, изображения, звуки и т.д. (см. [2], пункт 4.16).
3.1.7 значение данных: Содержание элемента данных.
Примечания
1 С "внутренней" точки зрения качество данных относится к самим данным, таким как значения предметной области и возможные ограничения (см. [3], пункт 5.11).
2 Номер или категория, присвоенная атрибуту целевого объекта путем проведения измерения (см. [2], пункт 4.17).
3.1.8 запись данных: Набор связанных элементов данных, рассматриваемых как единое целое.
Примечание - См. [2], пункт 4.15.
3.1.9
обучающие данные (training dataset): Подмножество выборок, которые подаются в модель машинного обучения. [ГОСТ Р 70462.1-2022, пункт 3.9] |
3.1.10
система искусственного интеллекта; ИИ-система (artificial intelligence system, AI system): Техническая система, которая порождает такие конечные результаты, как контент, прогнозы, рекомендации или решения для заданного набора определенных человеком целей. [ГОСТ Р 71476-2024, пункт 3.1.4] |
3.1.11
модель машинного обучения (machine learning model): Математическая конструкция, генерирующая логический вывод или прогноз на основе входных данных и/или информации. [ГОСТ Р 71476-2024, пункт 3.3.7] |
3.1.12
обученная модель (trained model): Результат обучения модели. [ГОСТ Р 71476-2024, пункт 3.3.14] |
3.1.13
обучающие данные (training data): Данные, используемые для обучения модели машинного обучения. [ГОСТ Р 71476-2024, пункт 3.3.16] |
3.1.14
качество данных (data quality): Степень, с которой набор характеристик, присущих данным, отвечает требованиям. [Адаптировано из ГОСТ Р ИСО 8000-2-2019, статья 3.8.1] |
3.1.15
надежность (объекта): Свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность объекта выполнять требуемые функции в заданных режимах, условиях применения, стратегиях технического обслуживания, хранения и транспортирования. |
Примечание - Надежность является комплексным свойством, которое в зависимости от назначения объекта и условий его применения может включать в себя безотказность, долговечность, ремонтопригодность и сохраняемость или определенные сочетания этих свойств. |
[ГОСТ Р 27.102-2021, статья 5] |
3.2 Сокращения
В настоящем стандарте применены следующие сокращения:
ИИ - искусственный интеллект;
МО - машинное обучение.
4 Общие положения
Классификация моделей МО регрессии по методам обработки информации для проведения косвенных измерений свойств материалов:
- линейная регрессия (см. ГОСТ Р 59277-2020, таблица 1, подпункт 8.17);
- дерево решений (см. ГОСТ Р 59277-2020, таблица 1, подпункт 8.13);
- обобщенные модели повышения градиента (XGBoost);
- метод Байеса (см. ГОСТ Р 59277-2020, таблица 1, подпункт 8.8);
- нейросети (см. ГОСТ Р 59277-2020, таблица 1, подпункт 8.1).
Каждая конкретная позиция классификации моделей МО может быть детализирована как по уже существующим стандартам, так и по сложившейся практике.
5 Разработка модели машинного обучения
5.1 Общие требования
Порядок разработки модели МО может включать следующие этапы:
- сбор и подготовка набора данных для обучения модели МО;
- анализ количества данных и их корреляций;
- выбор, обучение, тестирование и оптимизация модели МО;
- проверка работоспособности модели МО.
5.2 Выбор алгоритма машинного обучения
Выбор типа модели МО, метода, алгоритма и его параметров зависит от характера исследуемых данных, особенностей материала, цели косвенных измерений и требования к точности и интерпретируемости модели.
Рекомендации по выбору алгоритма МО:
- проведение предварительного анализа данных для выявления основных характеристик, таких как количество наблюдений, количество признаков, типы данных.
Пример - Если проводятся косвенные измерения гетерогенных материалов с выраженной анизотропией, необходимо учитывать физико-механические свойства в направлениях, где эта анизотропия наиболее выражена. Например, для композиционных материалов может быть важным учитывать модули упругости, прочность на растяжение и другие физико-механические свойства в различных направлениях и использовать алгоритмы МО, способные анализировать многоразмерные данные;
- большие и качественные наборы данных способствуют успешному применению более сложных моделей, таких как нейросети и обобщенные модели повышения градиента. При ограниченном объеме данных алгоритмы, менее чувствительные к объему данных, такие как линейные модели и деревья решений, могут показать лучшие результаты;
- если между признаками существует значительная линейная или полиномиальная зависимость, линейная регрессия может быть эффективной. При наличии сложных нелинейных зависимостей следует рассмотреть использование более производительных алгоритмов, таких как методы Байеса, обобщенное повышение градиента или нейросети;
- для задач, где важна объяснимость модели, целесообразнее выбрать линейную регрессию или дерево решений. Эти модели позволяют легко интерпретировать вклад каждого признака в предсказания.
5.3 Требования к обучению модели машинного обучения
Обучение модели МО систем ИИ должно удовлетворять следующим требованиям:
- данные для обучения должны быть достаточными по объему, качеству, достоверности и представительности для обеспечения адекватности и обобщающей способности модели МО;
- данные для обучения должны быть разделены на обучающую, валидационную и тестовую выборки в соответствии с выбранным методом разбиения (случайный, стратифицированный, хронологический и т.д.) и пропорциями (например, 70%/15%/15%);
- данные для обучения должны быть предобработаны в соответствии с выбранными методами предобработки (нормализация, стандартизация, заполнение пропусков, удаление выбросов, кодирование категориальных переменных и т.д.);
- обучение модели МО должно проводиться с использованием выбранной функции потерь или критерия качества (например, среднеквадратичная ошибка, перекрестная энтропия, коэффициент детерминации и т.д.), метода оптимизации или обновления весов (например, градиентный спуск, стохастический градиентный спуск и т.д.), гиперпараметров (например, скорость обучения, число эпох или итераций, размер выборки и т.д.);
- обучение модели МО должно контролироваться с помощью валидационной выборки для предотвращения переобучения или недообучения модели МО;
- обучение модели МО должно останавливаться при достижении заданного уровня качества или при выполнении других условий остановки (например, отсутствие улучшения качества на валидационной выборке в течение нескольких эпох или итераций).
5.4 Требования к тестированию модели машинного обучения
Тестирование модели МО систем ИИ должно удовлетворять следующим требованиям:
- тестирование модели МО систем ИИ должно осуществляться в соответствии с выбранным типом, методом, алгоритмом и параметрами модели МО, а также с учетом специфики задачи измерения, свойств материалов, доступности данных и ресурсов;
- данные для тестирования должны быть независимыми от данных для обучения и валидации, а также достаточными по объему, качеству, достоверности и представительности для обеспечения объективности и репрезентативности оценки модели МО;
- перед тестированием модели МО следует определить метрики оценки производительности, которые будут использоваться для оценки качества и эффективности системы;
- тестирование модели МО должно проводиться с использованием выбранной функции потерь или критерия качества (например, среднеквадратичная ошибка, перекрестная энтропия, коэффициент детерминации и т.д.), а также дополнительных метрик качества (например, точность, полнота и т.д.);
- тестирование модели МО должно включать проверку работоспособности модели МО на различных входных данных (например, на нормальных, аномальных, зашумленных или неполных данных), а также проверку устойчивости модели МО к различным видам атак (например, атаки с подменой данных, атаки с добавлением шума или искажения данных, атаки с поиском слабых мест модели МО и т.д.);
- после проведения тестирования необходимо проанализировать полученные результаты, сравнить их с заранее определенными метриками производительности и в случае выявления недостатков или несоответствия установленным требованиям провести корректировки и улучшения в моделях МО;
- тестирование модели МО необходимо документировать с указанием используемых данных, методов, параметров и результатов тестирования модели МО.
Тестирование модели МО для проведения косвенных измерений свойств материалов является важным этапом, обеспечивающим проверку работоспособности модели МО. Соблюдение указанных требований поможет гарантировать надежность и точность измерений, а также достижение поставленных целей разработки модели МО в данной области.
6 Эксплуатация модели машинного обучения в средствах измерений
Эксплуатация модели МО осуществляется с учетом:
- особенностей применения модели МО;
- контроля и обновления модели МО;
- тестирования на устойчивость модели МО.
6.1 Особенности применения модели машинного обучения
Применение модели МО для проведения косвенных измерений свойств материалов имеет следующие особенности:
- данные для обученных моделей МО должны быть измерены по единым стандартам, которые писались при сборе данных и обучения модели, для устранения масштабных и размерных различий между измеряемыми физико-механическими свойствами материалов;
- модели МО должны обрабатывать большие объемы данных и анализировать сложные взаимосвязи между физико-механическими свойствами материалов для обеспечения косвенного измерения недоступных или труднодоступных свойств;
- модели МО должны быть способны выявлять скрытые закономерности и тенденции, что помогает более глубоко понять характеристики материалов;
- модели МО должны динамически адаптироваться к изменениям в данных и условиях косвенных измерений;
- модели МО должны быть интерпретируемыми для понимания того, какие признаки и в какой степени влияют на прогнозируемые свойства материалов.
6.2 Контроль и обновление модели машинного обучения
Контроль модели МО должен осуществлять персонал по применению модели МО в соответствии с порядком и периодичностью, установленными разработчиком системы ИИ, а также с учетом специфики задачи измерения, свойств материалов, выбранной модели МО, а также требований заказчика или потребителя системы ИИ.
Системы ИИ необходимо постоянно анализировать для выявления возможных сбоев, ошибок или ненормального функционирования.
Выявленные ошибки и недостатки в работе модели МО должны быть немедленно исправлены.
Модели МО должны периодически обновляться на основе новых данных.
Модели МО должны проходить регулярное тестирование на разнообразных наборах данных с целью проверки их обобщающей способности.
Модели МО должны проходить регулярное тестирование на переобучение, чтобы избежать нежелательной зависимости от конкретных данных.
Модели МО должны проходить тестирование на масштабируемость, чтобы было возможно оценить их производительность при увеличении объема данных и пользователей.
Контроль модели МО должен включать:
- проверку работоспособности источников данных, интерфейсов ввода-вывода, средств обработки, хранения и передачи данных, а также средств контроля и управления работой модели МО;
- проверку соответствия данных для применения модели МО требованиям настоящего стандарта, а также требованиям заказчика или потребителя системы ИИ по объему, качеству, достоверности и представительности данных;
- выявление и устранение неисправностей, ошибок или несоответствий в работе модели МО;
- документирование результатов контроля модели МО с указанием даты и времени контроля, используемых данных и методов контроля, выявленных неисправностей, ошибок или несоответствий в работе модели МО, а также предпринятых мер по их исправлению и устранению.
Обновление модели МО должно осуществляться разработчиком модели МО в соответствии с порядком и периодичностью, установленными разработчиком модели МО, а также с учетом специфики задачи измерения, свойств материалов, выбранной модели МО, а также требований заказчика или потребителя системы ИИ.
Обновление систем ИИ должно включать следующие обязательные действия:
- анализ результатов контроля модели МО и выявление причин несоответствия модели МО требованиям настоящего стандарта, а также требованиям заказчика или потребителя модели МО;
- определение необходимости и возможности обновления модели МО с учетом доступности новых данных, методов, алгоритмов или технологий в области ИИ и косвенных измерений свойств материалов;
- проверка соответствия обновленной модели МО требованиям настоящего стандарта, а также требованиям заказчика или потребителя модели МО;
- документирование результатов обновления модели МО с указанием даты и времени обновления, используемых данных, методов, алгоритмов или технологий для обновления модели МО, а также результатов проверки соответствия обновленной модели МО требованиям настоящего стандарта, а также требованиям заказчика или потребителя модели МО.
6.3 Тестирование на устойчивость модели машинного обучения
Тестирование на устойчивость модели МО должно осуществляться разработчиком модели МО, или независимым экспертом, или организацией в соответствии с порядком и периодичностью, установленными разработчиком системы ИИ, а также с учетом специфики задачи измерения, свойств материалов, выбранной модели МО, а также требований заказчика или потребителя модели МО.
Модели МО должны подвергаться тестированию с целью выявления потенциальных уязвимостей и слабых мест в их работе.
Необходимо проводить периодическое тестирование модели МО, включая тестирование на отказоустойчивость и стабильность работы.
Необходимо проводить проверку защиты данных, используемых и генерируемых системами ИИ.
Тестирование на устойчивость модели МО должно включать следующие обязательные действия:
- определение времени или условий эксплуатации, при которых должна сохраняться работоспособность и качество системы ИИ (например, время безотказной работы, температура, влажность, освещенность и т.д.);
- определение видов атак или воздействий, которым может быть подвергнута система ИИ (например, атаки с подменой данных, атаки с добавлением шума или искажения данных, атаки с поиском слабых мест модели МО и т.д.);
- определение методов и инструментов для проведения тестирования на устойчивость модели МО (например, программные или аппаратные средства для генерации атак или воздействий, программные или аппаратные средства для контроля параметров эксплуатации и т.д.);
- проведение тестирования на устойчивость модели МО с использованием выбранных методов и инструментов;
- выявление и устранение неисправностей, ошибок или несоответствий в работе системы ИИ.
Тщательное тестирование позволяет выявить и устранить проблемы, обеспечивает надежную и стабильную работу модели МО в различных условиях и гарантирует точность и эффективность результатов измерений.
Приложение А
(рекомендуемое)
Пример разработки модели машинного обучения для косвенного измерения трещиностойкости композиционного материала по стандартным механическим испытаниям
Рисунок А.1 - Пример разработки модели машинного обучения МО
Библиография
[1] | Международный словарь по метрологии: основные и общие понятия и соответствующие термины: пер. с англ. и фр./Всерос.науч.-исслед.ин-т метрологии им.Д.И.Менделеева, Белорус.гос.ин-т метрологии. Изд. 2-е, испр. - СПб.: НПО "Профессионал", 2010. - 82 с. | |
[2] | ИСО/МЭК 25024:2015* | Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Измерение качества данных [Systems and software engineering - Systems and software Quality Requirements and Evaluation (SQuaRE) - Measurement of data quality] |
[3] | ИСО/МЭК 25012:2008 | Разработка программного обеспечения. Требования и оценка качества программного продукта (SQuaRE). Модель качества данных [Software product Quality Requirements and Evaluation (SQuaRE] - Data quality model) |
[1]Ме
УДК 004.01:006.354 | ОКС | 35.020 |
35.240.99 | ||
Ключевые слова: искусственный интеллект, средства измерений, модели машинного обучения, косвенные измерения, свойства материалов |