что такое ocr в сканере

Update

Медиа о технологиях в бизнесе

Что такое OCR и как оно помогает ускорить бизнес-процессы

Технология оптического распознавания символов (OCR) умеет преобразовывать бумажные документы в доступный для чтения и редактирования формат. Также OCR упрощает рутину бухгалтеров, юристов и HR-сотрудников: может распознать документы и перенести информацию в учетные системы.

что такое ocr в сканере. fN1AoUnS2LVJdLRX13jJOLNqFuvH3YMnMhpstsC6. что такое ocr в сканере фото. что такое ocr в сканере-fN1AoUnS2LVJdLRX13jJOLNqFuvH3YMnMhpstsC6. картинка что такое ocr в сканере. картинка fN1AoUnS2LVJdLRX13jJOLNqFuvH3YMnMhpstsC6.

Как компьютер распознает текст

OCR (англ. optical character recognition) — технология автоматического анализа текста и превращения его в данные, которые может обработать компьютер. Человек распознает символы с помощью глаз и мозга. Компьютер использует камеру сканера, которая создает графическое изображение текстовой страницы. Для компьютера нет разницы между сканом текстового документа и фотографией: и то, и другое — набор пикселей.

Человек легко поймет, что на картинке изображен текст. Для компьютера есть два способа: распознавать символы целостно, то есть распознавать паттерн, или выделять отдельные черты, из которых состоит символ — выявлять признаки.

Метод распознавания паттерна

В 1968 году компания American Type Founders, которая с конца 19 века занималась созданием печатных шрифтов, придумала шрифт OCR-A с буквами одинаковой ширины. В основном шрифт использовали в банковских чеках, а для его чтения компьютером было создано специальное программное обеспечение.

Поскольку шрифт был стандартизирован, его распознавание стало относительно простой задачей. Программы «знали» OCR-A и могли переводить информацию с чеков в машиночитаемую форму. Однако в случае ошибки живой человек мог вмешаться в процесс и также прочитать банковский чек. Следующим шагом стало обучение программ OCR распознавать символы еще в нескольких самых распространенных шрифтах.

Выявление признаков

Этот способ еще называют интеллектуальным распознаванием символов — ICR. Программа, работающая с выявлением паттернов, не сможет определить символы, если шрифты ей неизвестны. Вместо распознавания паттерна ICR выделяет характерные индивидуальные черты, из которых состоит символ.

Большинство современных OCR-программ работают по этому принципу. Чаще всего в них используются классификаторы на основе машинного обучения, но в последнее время некоторые OCR-системы перешли на нейронные сети.

Что делать с рукописным вводом

Задачу с рукописным текстом для компьютера иногда упрощают. Например, просят писать почтовый индекс в специальном месте на конверте особым шрифтом. Формы для дальнейшей обработки компьютером имеют отдельные поля, которые просят заполнять печатными буквами.

Планшеты и смартфоны, которые поддерживают рукописный ввод, часто используют принцип выявления признаков. При написании определенной буквы экран устройства распознает, что сначала человек написал одну линию, потом вторую. Компьютеру помогает то, что все признаки появляются последовательно, в отличие от варианта, когда весь текст уже написан от руки на бумаге.

Шаги распознавания текста

Чем лучше качество исходного текста на бумаге, тем лучше качество распознавания. Первый этап — создание черно-белой или серой копии. Если все прошло без ошибок, то все черное — это символы, а все белое — фон. Хорошие OCR-программы автоматически отмечают трудные элементы: колонки, таблицы или картинки. Все OCR-программы распознают текст последовательно, символ за символом, словом за словом и строчка за строчкой.

Сначала OCR-программа объединяет пиксели в буквы, а буквы — в вероятные комбинации, затем система сопоставляет их со словарем. Если комбинация букв находится, то она отмечается как распознанное слово. Если нет — программа подставляет наиболее вероятный вариант.

Чему еще можно обучить OCR-систему

В крупных компаниях за подготовку актов, счетов и судебных исков отвечают сотрудники, но развитие машинного обучения и нейронных сетей позволили автоматизировать деятельность бухгалтеров и юристов. Современные OCR-системы ушли гораздо дальше, чем распознавание символов, и стали основой для целой индустрии Legal Tech — цифровых продуктов, ориентированных на бизнес с большим количеством типовых юридических и бухгалтерских процессов. Вряд ли машина сможет в скором времени заменить бэк-офис, но современные решения значительно оптимизируют его работу.

Например, сервис «Цифровой бэк-офис» от МегаФона может собирать типовую документацию с помощью конструктора, выделять нужную информацию из первичной документации и генерировать ответы на запросы госорганов. Процесс идентичен тому, что происходит в обычном офисе юриста, только вместо живого человека — чат-бот, который собирает информацию и выдает готовый документ. Главные преимущества — отсутствие ошибок «человеческого фактора» и скорость подготовки документов: время сокращается с привычных 30 до 5 минут.

Также функция по распознаванию первичной документации может быстро перенести нужную информацию из актов и счетов-фактур в учетные системы. OCR-система получает типовой документ на входе и генерирует ответ в нужной форме. Например, «Судебная платформа» в «Цифровом бэк-офисе» МегаФона может работать в таком режиме с запросами от госорганов, претензиями и судебными исками. На подготовку отзыва системе понадобится всего около 20 секунд.

Источник

Из пикселей — в буквы: как работает распознавание текста

— Я угадаю это слово с трех букв! — Угадывай! Рассказываем о том, как устроены системы оптического распознавания символов (OCR)

что такое ocr в сканере. image6. что такое ocr в сканере фото. что такое ocr в сканере-image6. картинка что такое ocr в сканере. картинка image6.

Что такое OCR?

OCR (англ. optical character recognition, оптическое распознавание символов) — это технология автоматического анализа текста и превращения его в данные, которые может обрабатывать компьютер.
Когда человек читает текст, он распознает символы с помощью глаз и мозга. У компьютера в роли глаз выступает камера сканера, которая создает графическое изображение текстовой страницы (например, в формате JPG). Для компьютера нет разницы между фотографией текста и фотографией дома: и то, и другое — набор пикселей.

что такое ocr в сканере. lazy placeholder. что такое ocr в сканере фото. что такое ocr в сканере-lazy placeholder. картинка что такое ocr в сканере. картинка lazy placeholder.

Именно OCR превращает изображение текста в текст. А с текстом уже можно делать что угодно.

Как это устроено?

Представьте, что в алфавите есть только одна буква «А». Сделает ли это задачу преобразования картинки в текст проще? Нет. Дело в том, что у каждой буквы (и любой другой графемы) есть аллографы — различные варианты начертания.

Человек легко поймет, что все это буква «А». Для компьютера же есть два способа решения проблемы: распознавать символы целостно (распознавание паттерна) или выделять отдельные черты, из которых состоит символ (выявление признаков).

В 1960-х годах был создан специальный шрифт OCR-A, который использовался в документах типа банковских чеков. Каждая буква в нем была одинаковой ширины (т.н. шрифт фиксированной ширины или моноширинный шрифт).

Принтеры для чеков работали с этим шрифтом, и для его распознавания было разработано программное обеспечение. Поскольку шрифт был стандартизирован, его распознавание стало относительно простой задачей. Следующим шагом стало обучение программ OCR распознавать символы еще в нескольких самых распространенных шрифтах (Times, Helvetica, Courier и т.д.).

Этот способ еще называют интеллектуальным распознаванием символов (англ. intelligent character recognition, ICR). Представьте, что вы — OCR-программа, которой дали множество разных букв, написанных разными шрифтами. Как вам отобрать из этого множества все буквы «А», если каждая из них немного отличается от другой?

что такое ocr в сканере. lazy placeholder. что такое ocr в сканере фото. что такое ocr в сканере-lazy placeholder. картинка что такое ocr в сканере. картинка lazy placeholder.

Можно использовать такое правило: если видишь две линии, сходящиеся наверху в центре под углом, а посередине между ними горизонтальная линия, то это буква «А». Это правило поможет распознать все буквы «А» независимо от шрифта. Вместо распознавания паттерна выделяются характерные индивидуальные черты, из которых состоит символ. Большинство современных омнишрифтовых (умеющих распознавать любой шрифт) OCR-программ работают по этому принципу. Чаще всего в них используются классификаторы на основе машинного обучения (т.к. фактически перед нами стоит задача классификации картинок по классам-буквам) в последнее время некоторые OCR-движки перешли на нейронные сети.

Что делать с рукописным вводом?

Человек способен догадаться о смысле предложения, даже если оно написано самым неразборчивым почерком (если речь не идет о рецепте на лекарства, конечно).

что такое ocr в сканере. lazy placeholder. что такое ocr в сканере фото. что такое ocr в сканере-lazy placeholder. картинка что такое ocr в сканере. картинка lazy placeholder.

Задачу для компьютера иногда упрощают. Например, людей просят писать почтовый индекс в специальном месте на конверте специальным шрифтом. Формы, созданные для дальнейшей обработки компьютером, обычно имеют отдельные поля, которые просят заполнять печатными буквами.

Планшеты и смартфоны, которые поддерживают рукописный ввод, часто используют принцип выявления признаков. При написании буквы «А» экран «чувствует», что сначала пользователь написал одну линию под углом, затем вторую, и, наконец, провел горизонтальную черту между ними. Компьютеру помогает то, что все признаки появляются последовательно, один за другим, в отличие от варианта, когда весь текст уже записан от руки на бумаге.

OCR по шагам

Чем лучше качество исходного текста на бумажном носителе, тем лучше будет качество распознавания. А вот старый шрифт, пятна от кофе или чернил, заломы бумаги понижают шансы.
Большинство современных OCR-программ сканируют страницу, распознают текст, а затем сканируют следующую страницу. Первый этап распознавания заключается в создании копии черно-белого цвета или в оттенках серого. Если исходное отсканированное изображение идеально, то все черное — это символы, а все белое — фон.

Хорошие OCR-программы автоматически отмечают трудные элементы структуры страницы — колонки, таблицы и картинки. Все OCR-программы распознают текст последовательно, символ за символом, словом за словом и строчка за строчкой.
Сначала OCR-программа объединяет пиксели в возможные буквы, а буквы — в возможные слова. Затем система сопоставляет варианты слов со словарем. Если слово найдено, оно отмечается как распознанное. Если слово не найдено, программа предоставляет наиболее вероятный вариант и, соответственно, качество распознавания будет не таким высоким.

Некоторые программы дают возможность просмотреть и исправить ошибки на каждой странице. Для этого они используют встроенную проверку орфографии и выделяют неверно написанные слова, что может указывать на неправильное распознавание. Продвинутые OCR-программы используют так называемый метод поиска соседа, чтобы найти слова, которые часто встречаются рядом. Этот метод позволяет исправить неверно распознанное словосочетание «тающая собака» на «лающая собака».

Кроме того, некоторые проекты, которые занимаются оцифровкой и распознаванием текстов, прибегают к помощи волонтеров: распознанные тексты выкладываются в открытый доступ для вычитки и проверки ошибок распознавания.

Для высокой точности распознавания исторического текста с необычными графическими символами, отличающимися от современных шрифтов, необходимо извлечь соответствующие изображения из документов. Для языков с небольшим набором символов это можно сделать вручную, но для языков со сложными системами письменности (например, иероглифических) ручной сбор этих данных нецелесообразен.

Для распознавания исторических китайских текстов требуется внести в OCR-программу как минимум 3000 символов, которые имеют разную частотность. Если для распознавания исторических английских текстов достаточно ручной разметки нескольких десятков страниц, то аналогичный процесс для китайского языка потребует анализа десятков тысяч страниц.
В то же время многие исторические варианты китайской письменности имеют высокую степень сходства с современным письмом, поэтому модели распознавания символов, обученные на современных данных, часто могут давать приемлемые результаты на исторических данных, хоть и со сниженной точностью. Этот факт вместе с использованием корпусов позволяет создать систему для распознавания исторических китайских текстов. Для этого исследователь Д. Стеджен (Donald Sturgeon) из Гарварда обработал два корпуса: корпус транскрибированных исторических документов и корпус отсканированных документов желаемого стиля.

После предварительной обработки изображений и этапов сегментации символов процедура извлечения обучающих данных состояла из:
1) применения модели распознавания символов, обученной исключительно на современных документах, к историческим документам для получения промежуточного результата оптического распознавания с низкой точностью;
2) использование этого промежуточного результата для соотнесения изображения с его вероятной транскрипцией;
3) извлечение изображений размеченных символов на основе этого соотнесения;
4) выбор из размеченных символов подходящих обучающих примеров.
Полученные данные могут использоваться без проверки для обучения новой модели распознавания символов, позволяющей достичь более высокой точности на аналогичном материале.

Источник

Что такое OCR

Представьте, вам надо оцифровать журнальную статью или распечатанный договор. Конечно, вы можете провести несколько часов, перепечатывая документ и исправляя опечатки. Либо вы можете перевести все требуемые материалы в редактируемый формат за несколько минут, используя сканер (или цифровую камеру) и программу для оптического распознавания символов (OCR).

ЧТО ПОДРАЗУМЕВАЮТ ПОД ТЕХНОЛОГИЕЙ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ

Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.

Предположим, у вас есть бумажный документ, например, статья в журнале, брошюра или договор в формате PDF, присланный вам партнером по электронной почте. Очевидно, для того чтобы получить возможность редактировать документ, его недостаточно просто отсканировать. Единственное, что может сделать сканер, – это создать изображение документа, представляющее собой всего лишь совокупность черно-белых или цветных точек, то есть растровое изображение.

Для того чтобы копировать, извлекать и редактировать данные, вам понадобится программа для распознавания символов, которая сможет выделить в изображении буквы, составить их в слова, а затем объединить слова в предложения, что в дальнейшем позволит работать с содержимым исходного документа.

КАКИЕ ПРИНЦИПЫ ЛЕЖАТ В ОСНОВЕ ТЕХНОЛОГИИ FINEREADER OCR?

Наиболее совершенные системы распознавания символов, такие как ABBYY FineReader OCR, делают акцент на использовании механизмов, созданных природой. В основе этих механизмов лежат три фундаментальных принципа: целостность, целенаправленность и адаптивность (принципы IPA).

Изображение, согласно принципу целостности, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Иначе говоря, ABBYY FineReader не пытается принимать решение, перебирая тысячи эталонов в поисках наиболее подходящего. Вместо этого выдвигается ряд гипотез относительно того, на что похоже обнаруженное изображение. Затем каждая гипотеза целенаправленно проверяется. И, допуская, что найденный объект может быть буквой А, FineReader будет искать именно те особенности, которые должны быть у изображения этой буквы. Как и следует поступать, исходя из принципа целенаправленности. Принцип адаптивности означает, что программа должна быть способна к самообучению, поэтому проверять, верна ли выдвинутая гипотеза, система будет, опираясь на накопленные ранее сведения о возможных начертаниях символа в данном конкретном документе.

КАКАЯ ТЕХНОЛОГИЯ ЛЕЖИТ В ОСНОВЕ OCR?

Компания ABBYY, опираясь на результаты многолетних исследований, реализовала принципы IPA в компьютерной программе. Система оптического распознавания символов ABBYY FineReader – единственная в мире система OCR, действующая в соответствии с вышеописанными принципами на всех этапах обработки документа. Эти принципы делают программу максимально гибкой и интеллектуальной, предельно приближая ее работу к тому, как распознает символы человек. На первом этапе распознавания система постранично анализирует изображения, из которых состоит документ, определяет структуру страниц, выделяет текстовые блоки, таблицы. Кроме того, современные документы часто содержат всевозможные элементы дизайна: иллюстрации, колонтитулы, цветной фон или фоновые изображения. Поэтому недостаточно просто найти и распознать обнаруженный текст, важно с самого начала определить, как устроен рассматриваемый документ: есть ли в нем разделы и подразделы, ссылки и сноски, таблицы и графики, оглавление, проставлены ли номера страниц и т. д. Затем в текстовых блоках выделяются строки, отдельные строки делятся на слова, слова на символы.

Важно отметить, что выделение символов и их распознавание также реализовано в виде составных частей единой процедуры. Это позволяет в полной мере использовать преимущества принципов IPA. Выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами.

В системе ABBYY FineReader применяются классификаторы следующих типов: растровый, признаковый, контурный, структурный, признаково-дифференциальный и структурно-дифференциальный. Растровый и признаковый классификаторы анализируют изображение и выдвигают несколько гипотез о том, какой символ на нем представлен. В ходе анализа каждой гипотезе присваивается определенная оценка (так называемый вес). По итогам проверки мы получаем список гипотез, проранжированный по весу (то есть по степени уверенности в том, что перед нами именно такой символ). Можно сказать, что в данный момент система уже «догадывается», на что похож рассматриваемый символ.

После этого в соответствии с принципами IPA ABBYY FineReader проводит проверку выдвинутых гипотез. Это делается с помощью дифференциального признакового классификатора.

Кроме того, следует отметить, что ABBYY FineReader поддерживает 192 языка распознавания. Интеграция системы распознавания со словарями помогает программе при анализе документов: распознавание происходит более точно и упрощает дальнейшую проверку результата с учетом данных об основном языке документа и словарной проверки отдельных предположений. После подробной обработки огромного числа гипотез программа принимает решение и предоставляет пользователю распознанный текст.

РАСПОЗНАВАНИЕ ЦИФРОВЫХ ФОТОГРАФИЙ

Изображения, полученные при помощи цифровой камеры, отличаются от отсканированных документов или PDF, представляющих собой изображение.

У них зачастую могут быть определенные дефекты, например искажения перспективы, засветки от фотовспышки, изгибы строк. При работе с большинством приложений такие дефекты могут существенно усложнить процесс распознавания. В связи с этим последние версии ABBYY FineReader содержат технологии предварительной обработки изображения, которые успешно выполняют задачи по подготовке изображений к распознаванию.

КАК ПОЛЬЗОВАТЬСЯ OCR-ПРОГРАММАМИ

Технология ABBYY FineReader OCR проста в использовании – процесс распознавания в целом состоит из трех этапов: открытие (или сканирование) документа, распознавание и сохранение в наиболее подходящем формате (DOC, RTF, XLS, PDF, HTML, TXT и т. д.) либо перенос данных напрямую в офисные программы, такие как Microsoft® Word®, Excel® или приложения для просмотра PDF.

Кроме того, последняя версия ABBYY FineReader позволяет автоматизировать задачи по распознаванию и конвертации документов с помощью приложения ABBYY Hot Folder. С помощью него можно настраивать однотипные или повторяющиеся задачи по обработке документов и увеличить производительность работы.

КАКИЕ ПРЕИМУЩЕСТВА ВЫ ПОЛУЧАЕТЕ ОТ РАБОТЫ С OCR-ПРОГРАММАМИ

Высокое качество технологий распознавания текста ABBYY OCR обеспечивает точную конвертацию бумажных документов (сканов, фотографий) и PDF-документов любого типа в редактируемые форматы. Применение современных OCR-технологий позволяет сэкономить много сил и времени при работе с любыми документами. С ABBYY FineReader OCR вы можете сканировать бумажные документы и редактировать их. Вы можете извлекать цитаты из книг и журналов и использовать их без перепечатывания. С помощью цифровой фотокамеры и ABBYY FineReader OCR вы можете моментально сделать снимок увиденного постера, баннера, а также документа или книги, когда под рукой нет сканера, и распознать полученное изображение. Кроме того, ABBYY FineReader OCR можно использовать для создания архива PDF-документов с возможностью поиска.

Весь процесс преобразования из бумажного документа, снимка или PDF занимает меньше минуты, а сам распознанный документ выглядит в точности как оригинал!

Источник

Что такое OCR? Зачем нужно оптическое распознавание символов в современном мире мобильных технологий?

Говоря простым языком, OCR (optical character recognition, оптическое распознавание символов) — это процесс перевода текста на изображениях в текстовый формат. Основное применение технологии OCR находят в различных задачах, связанных с оцифровкой данных. Для отдельных подзадач OCR иногда используют названия наподобие «умное распознавание символов» (intelligent character recognition, ICR) или «распознавание визитных карточек» (business card recognition, BCR).

что такое ocr в сканере. mobile ocr. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr. картинка что такое ocr в сканере. картинка mobile ocr.

Первые системы оптического распознавания символов появились практически одновременно с первыми компьютерами. В 50-х годах прошлого столетия с помощью коммерческих OCR системы начали обрабатывать отчеты о продажах, набранные на печатной машинке, и переводили их в перфокарты. С тех пор OCR пережил много изменений, главным из которых стала замена применяемых в алгоритмах распознавания разнообразных классификаторов символов искусственными нейронными сетями (ИНС, ANN).

Сейчас технологиям распознавания брошен серьезный вызов, когда все чаще речь идет о распознавании изображений с камер мобильных устройств или обычных веб-камер. Это могут фотографии или кадры из видеопотока. Чтобы лучше понять сложность поставленной задачи, давайте начнем с примера. Изображение документа для распознавания можно получить разными способами, и мы выбрали три из них:

1) взяли Canon CanoScan LiDE 300, отсканировали документ с разрешением 300dpi и бинаризовали результат;

2) сфотографировали документ на iPhone 11 при комнатном освещении;

3) сняли видео веб-камерой и взяли из него один кадр.

Как видно на картинке, системы распознавания в наши дни должны быть устойчивы к самым разнообразным условиям съемки. Очевидно, качество изображений может существенно различаться.

Binarized scanчто такое ocr в сканере. mobile ocr tbl1. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr tbl1. картинка что такое ocr в сканере. картинка mobile ocr tbl1.
Photo with iPhone 11что такое ocr в сканере. mobile ocr tbl2. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr tbl2. картинка что такое ocr в сканере. картинка mobile ocr tbl2.
Web camera video frameчто такое ocr в сканере. mobile ocr tbl3. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr tbl3. картинка что такое ocr в сканере. картинка mobile ocr tbl3.

Вот так может выглядеть рабочий процесс системы оптического распознавания.

что такое ocr в сканере. mobile ocr1. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr1. картинка что такое ocr в сканере. картинка mobile ocr1.

Большинство подходов начинаются с предобработки изображения, которая, как правило, включает бинаризацию изображение для упрощения последующей сегментации на символы. Алгоритм сегментации делит изображение строки на изображения отдельных символов, которые подаются классификатору. Иногда, для улучшения качества распознавания к результату классификации могут применяться алгоритмы постобработки.

В случае мобильного OCR (на Android, iOS или иных системах), или же распознавания на мобильном устройстве, возникают две трудности: ограничения на вычислительные мощности и неконтролируемые условия съемки. При работе с персональными документами, банковскими бумагами или, например, результатами теста на COVID-19 важно обеспечить максимум конфиденциальности и минимизировать риск утечки данных, так что распознавание «в облаке» сразу отпадает. Распознавание непосредственно на устройстве накладывает ограничения на вычислительную сложность алгоритмов, ведь система должна работать быстро и энергоэффективно. С другой стороны, меньшие ограничения на условия съемки значительно расширяют диапазон возможных искажений. Появляются проективные искажения, смазывание, перепады яркости, блики и многое другое. Все это существенно влияет на этап предобработки.

что такое ocr в сканере. mobile ocr2. что такое ocr в сканере фото. что такое ocr в сканере-mobile ocr2. картинка что такое ocr в сканере. картинка mobile ocr2.

В результате при мобильном распознавании, с одной стороны, возникает множество ошибок у стандартных подходов к сегментации, а с другой — из-за ограничения на вычислительные ресурсы многие современные нейросетевые модели, например, рекуррентные сети (RNN) или LSTM-сети становятся неэффективными или же излишне ресурсозатратными. Таким образом, для успешного распознавания изображений, снятых на камеры мобильных устройств (работающих на Android или iOS), необходимо придумывать абсолютно новые алгоритмы и переосмысливать уже известные подходы.

Примером переосмысления старых подходов можно считать замену алгоритмов сегментации, основанных на обработке изображений, на сегментирующие нейронные сети, как это уже когда-то произошло с классификаторами. Наиболее многообещающей моделью для такие подходов представляется полносверточная сеть (fully convolutional network, FCN).

что такое ocr в сканере. video stream 1. что такое ocr в сканере фото. что такое ocr в сканере-video stream 1. картинка что такое ocr в сканере. картинка video stream 1.

Замена отдельного изображения на видеопоток приводит к появлению концепции 4D OCR и новым возможностям распознавания, прежде всего, к алгоритмам межкадровой интеграции результатов распознавания. Более того, при обработке видео можно рассматривать процесс распознавания как anytime алгоритм, готовый в любой момент дать ответ. Выбор оптимального числа кадров можно осуществлять, решая задачу останова.

Вот так может выглядеть рабочий процесс системы оптического распознавания (OCR)?

Давайте приведем несколько примеров. Все ниже перечисленные процессы можно улучшить и ускорить с помощью OCR системы.

При продаже билетов и регистрации на рейс пассажирам требуется вводить свои личные данные. Автоматическое сканирование МЧЗ (машиночитаемой зоны) или паспорта позволит сделать эти процессы более удобными для пользователей и минимизировать число ошибок в данных.

Удаленная идентификация клиента — популярная и крайне важная опция для многих задач, включая проверку возраста, онлайн-регистрацию, активацию сим-карты, бронирование номеров в отелях и предварительную запись на медицинские услуги. С ее помощью можно упростить жизнь пользователю, а также оптимизировать работу персонала и в результате избежать очередей в офисах, магазинах, фойе отелей и других местах скопления людей.

Отдельно стоит выделить банковские услуги, где применение OCR для распознавание удостоверений личности и документов является must-have функцией. В этой сфере любые ошибки в данных приводят к проблемам для клиентов, оставляя у них плохое впечатление от банка и влияя на решение о дальнейшем обслуживании. Встроенное распознавание ID карт, паспортов, водительских прав и других документов ускоряет процесс открытия счета новым клиентам, упрощает аутентификацию текущих клиентов и предоставляет возможности развития кросс-продаж.

А что об общедоступных OCR решениях?

В наше время существует много общедоступных open-source распознавателей текста. Такие решения могут быть очень полезны в образовательных целях или для учебного демонстрационного приложения. Однако они могут быть не просто бесполезны, а опасны для настоящих «боевых» коммерческих систем. При этом, их существенным недостатком окажется не только точность и скорость распознавания, но и уязвимость для внешних атак.

Атаки на нейронные сети — это популярная тема для научных исследований. Главные типы атак — отравление данных и атака уклонением с помощью состязательных примеров. При отравлении данных ошибки вводятся в сеть на этапе обучения. А при применении сети распознаватель может совершить специфические серьезные ошибки. Единственный способ избежать такой атаки — быть уверенными в своих данных. А как можно быть уверенным в данных, которых вы никогда не видели? При атаке уклонением злоумышленник пытается заставить сеть дать неверный ответ. Иногда он даже может предопределить этот ответ. Для открытых систем оптического распознавания текста такие примеры можно посчитать, так как эти системы общедоступны. Можно просто скачать модель и подобрать нужные примеры.

А теперь чуть больше об OCR сервисах Smart Engines

В Smart Engines мы разрабатываем OCR решения, которые могут работать с фотографиями, сканами или видеопотоком в реальном времени. Условия съемки могут быть самыми разными — не нужно специально фокусировать камеру или же искать хорошо освещенное место. Наше ПО работает автономно на конечном устройстве, никуда не передает данные клиента, не хранит их и не требует интернет-соединения. При разработке нашего OCR модуля мы активно пользуемся генерацией искусственных данных и не используем предобученные модели. Таким образом, наше решение оказывается гораздо более устойчивым для внешних атак.

Программные продукты Smart Engines, в которых мы применяем собственные технологии OCR:

Smart ID Engine — SDK для сканирования более чем 1600 типов удостоверяющих личность документов со всего мира, напечатанных с использованием латиницы, кириллицы, арабицы и других письменностей;

Smart Code Engine — решение для распознавания банковских карт, одномерных и двумерных штрихкодов, МЧЗ и других кодированных объектов;

Smart Document Engine — система автоматического анализа и распознавания деловых документов, форм и анкет.

Как работают наши OCR технологии в мобильных приложениях Android и iOS

Чтобы попробовать наши продукты в действии, вы можете скачать демо приложение из App Store или Google Play.

Если же вы хотите узнать больше о научных разработках, стоящих за нашими продуктами, можете почитать разделы Наука и Блог на нашем сайте, наш блог на хабре или просто поискать нас в Google Scholar.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *