Альфа-Банк разработал собственный движок для автоматического распознавания документов на базе нейросетей и компьютерного зрения

43

Альфа-Банк внедрил сервис распознавания документов на основе решений с открытым исходным кодом, такие как TensorFlow, PyTorch, OpenCV и др., сообщается на сайте банка.

 

Сервис разработан как аналог популярным платным решениям для распознавания данных из документов с использованием технологий компьютерного зрения и нейронных сетей. При этом он превосходит аналоги по качеству распознавания и скорости работы, являясь полностью автономным и обеспечивающим независимость от сторонних поставщиков, лицензионных ограничений и необходимости внешних доработок. Среднее время обработки одного документа составляет порядка 2 секунд, что в 10–15 раз быстрее коммерческого решения, которое использовалось в банке прежде. Это особенно важно для клиентских сервисов, где критична скорость обслуживания.

 

Весь процесс распознавания документов был разделен на 6 различных функций, для реализации каждой из которых была разработана и обучена собственная нейросетевая модель. В результате, 6 нейросетей последовательно отрабатывают функции: детекции документа на изображении, коррекции геометрии и выравнивание, классификации и валидации документа, сегментации ключевых полей, распознавания текста (OCR), а также постобработки и нормализации извлеченных данных.

 

В основе OCR-модуля для распознавания текстов лежит современная архитектура Parseq, сочетающая трансформеры и перестановочное декодирование для точного восстановления символов. Она заимствует лучшие практики из генеративного моделирования, такие как трансформеры и языковые модели, но фокусируется на дискриминативной задаче - точном восстановлении текста даже при низком качестве изображения. Сервис предполагает высокую гибкость интеграции и может использоваться как самостоятельное решение, так и в составе существующих систем, дополняя их и улучшая общие показатели качества и производительности.

 

Для реализации остальных этапов также применяются различные типы нейросетей: от классических полносвязных и сверточных архитектур до современных трансформеров, что обеспечило гибкость и адаптивность системы.

 

Первая внедренная задача, реализованная в рамках сервиса - распознавание основного разворота паспорта гражданина РФ, но используемый подход к обучению моделей позволяет  создать аналогичные решения для других типов документов. При этом микросервисная архитектура поддерживает горизонтальное масштабирование и готова к работе в кластере Kubernetes, что обеспечивает стабильность при пиковых нагрузках.

 

«Мы всегда стараемся применять решения, которые улучшают клиентский опыт, делают взаимодействие банка с клиентом быстрее, удобнее, эффективнее. И такие наши внутренние решения позволяют нам быть флагманами клиентоцентричности на рынке. Разработка, поддержка и развитие сервиса полностью происходит без привлечения сторонних подрядчиков.  Это обеспечивает дополнительную гибкость, безопасность и быструю адаптацию под новые требования, а отсутствие лицензионных платежей позволяет масштабировать созданные решения без дополнительных затрат со стороны банка», — отметила главный операционный директор Альфа-Банка, Нино Кодуа.

 

Источник: RFinance

ПОДЕЛИСЬ С ДРУЗЬЯМИ: