Преобразование и распознавание документов. Форматы файлов.



Распознавание текста является необходимой стадией в процессе преобразования документа на твердом носителе в цифровой формат. Это занимает гораздо меньше времени, нежели ручной способ простого перенабора текста.

Для того чтобы работать с текстом привычным образом в текстовом редакторе, текст придется распознать. Распознавание текста - это процесс перевода графического изображения символов (букв) в компьютерные текстовые символы. Сделать это можно, имея качественную цифровую копию оригинального текста и набор современных компьютерных программ для распознавания текста.

Технология, позволяющая компьютерам «читать» текст с физических объектов, называется OCR.

Оптическое распознавание символов (OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.

Программы OCR не могут распознавать рукописные тексты. Перечисленные далее типы документов затрудняют распознавание и по возможности не должны использоваться:копии с других копий;факсы;текст с плотно расположенными символами или строками;текст в таблицах или подчеркнутый текст;текст с наклоном или с размером символов меньше 8 пунктов.

После окончания процесса распознавания, не смотря на постоянно совершенствующееся программное обеспечение, получившийся результат необходимо проверить и откорректировать вручную. Чем хуже состояние оригинала, тем больше возникает ошибок и только человек может провести коррекцию и исправить все недочеты.

Далее происходит проверка на предмет синтаксических и орфографических ошибок, расставляются, по необходимости, знаки препинания и специальные символы.Проверяется и если нужно корректируется размер шрифта, стили заголовков и текста, разбивается на абзацы, главы, проверяется нумерация страниц и оглавление документа. Также проверяется общая структура документа и верстка. Графические элементы, картинки, графики, схемы и другие иллюстрации так же проходят проверку на предмет соответствия.

    Распознанный документ можно сохранить в любом электронном виде (PDF, MS Word, Excel, Html, Rtf, txt) для последующего редактирования и использования.

 

Сканирование документов. Типы сканеров и программное обеспечение.

Сканирование — аналого-цифровое преобразование плоского изображения в цифровую растровую форму с помощью сканера.

Сканер — это устройство ввода, которое, анализируя какой-либо объект (обычно изображение, текст), создаёт цифровую копию изображения объекта. Процесс получения этой копии называется сканированием.

Типы сканеров:

Планшетные сканеры - сканируемый оригинал располагается на прозрачном планшете. Каретка с лампой, оптической системой и матрицей светочувствительных элементов движется вдоль планшета, считывая изображение с поверхности оригинала и преобразовывая его в цифровой код.

Пленочные сканеры - предназначен только для сканирования прозрачных оригиналов, таких как слайды, негативы и диапозитивы. Сканеры данного типа в основном используются фотографами или работниками фотостудий и фотолабораторий.

Барабанные сканеры - имеет вращающийся барабан, на который крепится сканируемый оригинал. Луч света от оригинала направляется на фотоэлектронный умножитель который преобразует его воздействие в электронный сигнал. Так при вращении барабана, точка за точкой формируется цифровое изображение.

Протяжные сканеры–предназначендля сканирования многостраничных несброшюрованных документов. Поэтому такие сканеры так же называют документными. Ролики системы автоматической подачи листов протягивают сканируемый оригинал перед неподвижной фотосчитывающей системой, которая преобразует отраженный от поверхности оригинала свет в последовательность электронных сигналов.

Паспортные сканеры - специальные устройства, спроектированные с учетом оптимального удобства для сканирования паспортов, водительских прав, пропусков и других удостоверений личности. Это планшетные сканеры формата А5, адаптированные по своим характеристикам для получения оптимального результата при вводе документов.

Планетарный сканер —используется для бесконтактного сканирования книг и сброшюрованных документов. Широко используются для оцифровки оригиналов, требующих деликатного обращения (ветхих, исторических документов). Сканирующий элемент находится на фиксированном расстоянии от фотографируемого объекта. Основным элементом книжного сканера является сканирующая головка, расположенная на высоте нескольких десятков сантиметров над сканируемым объектом. Сканирующая головка может быть устроена по принципу сканирующей линейки и осуществлять сканирование посредством «просмотра» документа от одного края до другого. Также головки могут оснащаться матрицами, устроенными по принципу матрицы цифрового фотоаппарата.

Сетевые сканеры - подключаются напрямую к существующей сетевой инфраструктуре без использования компьютера и позволяют любому сотруднику организации сканировать документы, сохранять их в сетевые папки, отправлять по почте.

Ручные сканеры - сканирование производится путем проведения сканера рукой по поверхности оригинала. Второй тип: сканирование производится удерживаемым в руке устройством (сканирующее перо, ручка-сканер и т.п.). Устройства данного типа предназначены, преимущественно, для построчного сканирования текста. Третий тип: по сути протяжной сканер, имеющий небольшие габариты (портативный протяжной сканер отдельных листов, сканер визиток). Отдельно можно отметить такое комбинированное устройство, как сканер-мышь, которая подключается к компьютеру через USB и функционирует как обычная мышь, а при необходимости, нажатием специальной кнопки, переводится в режим сканирования.

После сканирования полученная цифровая информация требует обработки для приведения отсканированного изображения в нужный вид.

Существует много программ для коррекции полученных изображений. Самая известная из них - это AdobePhotoshop, которая имеет огромное количество различных инструментов для работы с изображениями. ТакженужноназватьACDSee, Microsoft PhotoEditor (встроеннуюв Microsoft Offise), Raster Desh, Raster ID, Spotlight.

Для преобразования отсканированных бумажных документов в электронные форматы для последующего редактирования – системы распознавания текста: ABBYY FineReader, OCR CuneiForm, Readiris, MicrosoftOfficeDocumentImaging.

Для редактирования объемных изображений используются программы StudioMAX, Maya, Rhinoceros, SolidWorks и другие пакеты 3d моделирования.

 


Дата добавления: 2018-08-06; просмотров: 716; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!