Министерство цифровой трансформации активно работает над созданием национальной языковой модели (LLM) и чат-бота Дія.AI, однако подчеркивает, что все персональные данные маскируются в ходе этих процессов. Об этом рассказал руководитель соответствующей команды при Минцифры Дмитрий Овчаренко в интервью для DOU.
Так, он отметил, что на Минцифры возложен сбор данных для обучения национальной LLM-модели.
«Сейчас мы на этапе внутреннего сбора данных. От министерства был запущен опросник к центральным органам исполнительной власти и другим госучреждениям относительно корпусов данных, которыми они располагают.
Первый драфт модели мы сможем выпустить, когда определимся с архитектурой, поработаем с данными, протестируем, доработаем их по культурно-историческим, этическим и другим критериям. И напомню, что мы не делаем национальную LLM с нуля, а берем опенсорсную модель с открытыми весами и предварительно обучаем ее на большом корпусе украинских данных», — отметил он.
Также Овчаренко назвал крупнейшим вызовом реализацию Дія.AI в мобильном приложении.
«Если хотя бы 25% пользователей воспользуются AI-помощником, нагрузка будет огромной. Самый большой вызов — в масштабировании архитектуры, интеграции с реестрами, нагрузке и главное — в безопасности.
Для примера: один из наших сервисов обрабатывает около 8 миллионов запросов в год и требует нескольких этапов обработки. Любая модель, обеспечивающая этот процесс, запускается либо на нашей инфраструктуре, либо в облаке. В любом случае это значительные расходы. Мы не используем бюджетные средства для поддержки таких моделей, и именно этот вопрос требует отдельного решения. В целом AI будет везде.
На данный момент у чата более 27 тысяч уникальных пользователей и 950 заказанных справок о доходах», — подчеркнул он.
Что касается защиты персональных данных, то, как отметил Овчаренко, к процессу привлечены как внешние институты, так и внутренние команды.
По его словам, глава Минцифры Михаил Федоров лично на каждом совещании подчеркивал: «Ребята, персональные данные. Вы уверены, что протестировали? Покажите результаты, отчеты, как отреагировали».
«Наибольшее беспокойство вызывает то, что модель работает в «облаке». Однако политика Google декларирует: данные пользователей (промпты и запросы) не используются для дообучения. Мы строили систему по принципу zero trust. Даже если модель расположена на нашей инфраструктуре, она все равно не имеет доступа к реальным PII-данным.
В нашем контуре перед языковой моделью работают отдельные обученные классификационные модели — своеобразные guardrails. Они выявляют и маскируют персональные данные. То есть, если в запросе есть, например, ИНН, в Google Gemini он передается уже как тег [ИНН]. Модель понимает, что это идентификатор, но оперирует только тегом, а не самим значением. На уровне бэкенда мы подставляем реальные данные уже после получения ответа, чтобы пользователь получил корректный результат.
История чатов хранится в базе данных, но с соблюдением всех современных практик: encryption at rest, дополнительное шифрование каждой записи уникальным ключом пользователя. То есть даже в случае компрометации базы без ключа восстановить информацию невозможно. Модель никогда не видит персональных данных. Все запросы проходят предварительную и последующую обработку», — отметил Овчаренко.
Он подчеркнул, что безопасность остается постоянным вызовом.
«Это и интеграция с государственными реестрами, и способность самих реестров выдерживать дополнительную нагрузку, и развитие guardrail-моделей. Последние, кстати, плохо работают с украинским языком, поэтому нам пришлось разработать собственное решение и развернуть его в Украине. Я думаю, это был самый большой челлендж», — добавил он.
Кроме того, одним из направлений работы является анализ нормативных актов.
«Минцифры является органом цифровой экспертизы: все изменения в законодательство проходят через соответствующий директорат. Мы должны готовить аналитику для разных министерств. Если раньше проверка нормативно-правового акта занимала 3–10 дней, то теперь анализ готовим максимум за 72 часа.
Мы запустили это решение пять месяцев назад: юристы сами создают промпты.
В целом техническая продуктовая команда по всем направлениям насчитывает 15 человек. AI постепенно становится ключевым фокусом и для других министерств, поэтому часть нашей команды, возможно, будет помогать и там.
Мы уже синхронизировали работу с другими министерствами по системе OKR. Это работает отлично: будет общий дашборд с прописанными целями, где каждый сможет видеть, кто что выполнил, а что еще в работе», — отметил он.
Ранее он рассказывал, что языковую модель можно использовать для анализа нормативных актов.
«Например, в Минцифры мы проверяем нормативные акты на наличие цифровых аспектов — упоминания баз данных, обработки информации, приложений. Уже сейчас мы интегрируем ассистента в систему документооборота АСКОД, который выделяет важные моменты и объясняет, почему на них стоит обратить внимание. Это экономит время экспертов и ускоряет принятие решений», — пояснил руководитель команды.
Автор: Наталя Мамченко
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.