Компьютерные технологии обработки информации

       

Программы распознавания текста (ocr)


 Применяя сканер можно не только получать "электронные" фотографии, но и использовать его для  преобразования текста, напечатанного на бумаге в "текст пригодный для редактирования".

Конечно текст сам собой превращаться не будет - необходима программа распознавания текста (OCR) - например FineReader .

Принцип действия таких программ следующий: сканируется фотография текста, затем методом сравнения множества образцов, черно-белая фотография (читай: картинка текста) преобразуется в "обычный текст", такой, если бы вы его напечатали с клавиатуры.

Пользователю остается только сохранить текст на диске или скопировать его через буфер обмена в любой текстовый редактор.

FineReader автоматически распознает разные участки текста: текст как таковой, картинку (рисунок), таблицу  и так называемые "нераспознаваемые" блоки.

Несколько слов о параметрах сканирования. Для "хорошего" текста (белая бумага, качественная печать) достаточно разрешения  200 dpi. Газетные статьи и текст, отпечатанный на матричном принтере, сканируйте с разрешением 300 - 400 dpi.

В программе есть возможность "настройки" на конкретный текст (меню - сервис - параметры - установки сканера). Если вы сканируете документ из графического редактора - устанавливайте режим "B\W" и разрешение 300 dpi.

Перед началом работы следует включить сканер и положить оригинал (обычно лицом вниз, если только вы не используете ручной сканер).

После запуска FineReader появляется "совет дня" - краткое описание какой-либо операции. Для продолжения работы вам нужно закрыть это окно.  Шпаргалка - необходима лишь самым "ленивым" пользователям.

На панели инструментов находятся кнопки "сканировать", "выделить блоки" и "распознать".  Можно выполнять указанные операции и через меню (Scan&Read).

Для получения "фотографии текста" используем кнопку "сканировать". Наш компьютер все ресурсы во время выполнения этой операции отдает сканеру.






Когда процесс завершается, вы увидите окно с изображением текста.

Ручную установку блоков[80]

(рамка с помощью левой кнопки мыши) применяйте, если нужно распознать  только часть текста.

Для большинства случаев сразу нажимайте на кнопку инструмента "распознать" и подтвердите автоматическое определение блоков. Процесс распознавания будет "иллюстрироваться" серой закраской участков текста.

В новом окне с именем "текст"   вы увидите распознанный программой текст, который был напечатан на листе бумаги.

Возможно, вам придется исправить ошибки, так как точность распознавания FineReader  около 92- 97 %, да и при печати книг и газет на бумаге иногда не прилипает  или осыпается краска. Это хорошо видно в окне "крупный план" с увеличенным масштабом. Как только вы измените положение курсора в окне "текст" или "увеличительного стекла" в окне "image", поменяет позицию и "крупный план".

Чтобы отправить текст в буфер обмена необходимо его выделить (редактирование - выделить все), а затем использовать команду "копировать", доступную из меню или через панель инструментов.

Если вы будете распознавать и  другие документы, тогда сохраните содержимое окна текст  в виде файла (инструмент "дискета" или команда меню - файл - сохранить.

К сведению: на панели инструментов есть "поля" с режимами распознавания ("авто" и "русско-английский"). Для сканирования документов с другим языком выберите нужный из списка.

 

ВОПРОСЫ И ЗАДАНИЯ:

1.    Какие типы сканеров вы знаете?

2.    Что такое "разрешение", в каких единицах оно измеряется?

3.    Даны две оцифрованные картинки. Первая - получена в режиме "Gray", вторая в режиме "Color".  Какая из них будет занимать больше места на жестком диске, если при сканировании использовался один и тот же образец?

4.    Назначение и сфера применения программ OCR

5.    Можно ли распознать фотографию текста записанную в виде файла?

6.    Какой стороной нужно помещать  "оригинал" в сканер?

7.    Какие типы распознаваемых блоков вы знаете?

8.    Как распознать только часть текста сканируемого документа?

9.    Опишите последовательность сканирования фотографии в редакторе растровой графики.

10.С каким разрешением Вы будете сканировать большую фотографию, которую в дальнейшем собираетесь показывать на экране компьютера?






Содержание раздела