Шаг 3. Распознавание текста. Создание электронных копий журналов с цветными иллюстрациями в формате DjVu

Для распознавания текста используется программа ABYY FineReadar (я использую ABYY FineReadar 7.0 Professional Edition).
Ярлык программы ABYY FineReadarПрежде чем приступить к распознаванию текста, нужно прогнать файлы через программу Irfan View, так как ABYY FineReadar не любит файлы после программы Scan Kromsator.
Ярлык программы Irfan View1. Подготовим очередную папку 03 в папке 0000. Запускаем программу IrfanView, выбираем «Преобразовать/переименовать группу файлов». В окне «Операция с группой файлов» выполняем настройки.
Настройка обработки файлов в программе IrfanViewВ правом верхнем окне «Папка» выбираем папку 02, с помощью «Меню «Вид» переводим показ изображений к виду «Таблица». Выделяем все изображения, начиная снизу вверх, и нажимаем «Добавить», список изображений появится в левом верхнем окне.
В окне «Результирующая папка» выбираем заранее заготовленную папку 03 (что в папке 0000).
Устанавливаем флажок «Пакетное преобразование».
Проверяем настройку «Опции»
Настройка опций программы IrfanViewПроверяем, чтобы не было флажка "Использовать дополнительные параметры".
Нажимаем кнопку "Старт", преобразование изображений происходит достаточно медленно, т.к изображения цветные.
Теперь можно приступать непосредственно к распознаванию текста.

1.Запускаем программу ABYY FineReadar и подготовим папку для сохранения файлов. Выбираем «файл» - «Сохранить пакет как…». В появившемся окне «Сохранить пакет как…» выделяем папку 0000 и вводим имя пакета - 04. Нажимаем «Сохранить».
«Сохранить пакет как…» в программе ABYY FineReadar 2. Для загрузки изображений нажимаем на треугольник справа от картинки с надписью «Открыть», выбираем папку 03, приводим её к виду "Таблица", выделяем все файлы внизу вверх и нажимаем "Открыть" и ждем завершения загрузки изображений.

3. Выполняем настройки распознавания текста, для этого нажимаем на треугольник рядом с картинкой "Распознать все". В выпадающем меню выбираем "Опции", затем закладку "Проверка" и удаляем галочку у надписи "Останавливаться на не словарных словах".
Настройки распознавания текста в программе ABYY FineReadarМожно этого не делать, но тогда процесс распознавания будет проходить еще дольше.

4. Жмем "Распознать все". Распознавание текста программа выполняет достаточно долго. После завершения работы программы можно посмотреть, что в папке 04 каждое изображение представлено двумя файлами, вот так:
Каждое изображение представлено двумя файламиА изображение стало черно-белым (хотя может это может быть это только у меня программа переводит изображение в черно-белое). Но это не важно, нам из этой папки нужен будет только текстовый слой.

Продолжение следует.
Полную инструкцию "Создание электронных копий журналов с цветными иллюстрациями в формате DjVu" можно скачать по ссылке (формат doc, объем 704 Кб)

Design by Blogger Templates