Список использованных источников и литературы

Министерство культуры Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

Высшего образования «Пермский государственный институт культуры»

Факультет культурологии и социально-культурных технологий

Кафедра библиотечных и документально-информационных технологий

Контрольная работа по курсу информатика

«Технология сканирования и распознавания текстов документов. Архивирование файлов»

Работу выполнила:

Студентка группы ЗБМ 16-1Б

Фофанова Нина Петровна

Проверил:

Канд. тех. наук,

Доцент Нечаев В. Г.

Пермь, 2017

Содержание

 

1. Технология сканирования……………………………………….….....3

2. Распознавание текстовых документов……………………….….……5

3. Архивирование файлов………………………………………………..8

Список используемой литературы…………………………………………..13

 

 

Технология сканирования

Сканер – от англ. «пристально разглядывать, рассматривать» – это устройство ввода, которое анализирует какой-либо объект (изображение, текст) и создаёт цифровую копию изображения объекта. Процесс получения этой копии называется сканированием.

Общий принцип работы сканера прост: на сканируемый предмет направляются лучи света и частично отражаются на светорегистрирующие элементы. Благодаря разным уровням отражения (например, черный цвет отражает хуже, чем белый) логическая схема аппарата формирует цифровой «оттиск» сканируемого предмета.

Сканирование – процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифрового "портрета", пригодного для компьютерной обработки.

По характеру использования в технологическом процессе сканеры документов принято подразделять на следующие типы:

- Планшетные

- Протяжные или роликовые

- Планетарные или книжные

Планшетный сканер - сканер, в котором оригинал кладется на стекло и сканируется при помощи подвижной линейной ПЗС матрицы.

Планшетные сканеры предназначены для ежедневного сканирования небольшого объёма фотографий, слайдов (при наличии слайд-адаптера) или документов (до 300 листов в день). Особенность данного типа сканеров - простота конструкции, ручная обработка документов, низкая производительность.

Протяжной или роликовый сканер - сканер, в котором оригинал протягивается мимо неподвижной линейной ПЗС матрицы, разновидность такого сканера - факс-аппарат.

Скоростной сканер для работы с документами - разновидность протяжного сканера, предназначенная для высокопроизводительного многостраничного ввода. Сканеры могут быть оборудованы подающими и приемными лотками объемом свыше 1000 листов, и вводить информацию со скоростью до 180 и более листов в минуту.

Скоростные протяжные сканеры предназначены для поточного сканирования (ввода) формализованных документов (бланки, накладные, картотеки и т.д.), а также обычных документов (договоры, письма, и т.д.)

Особенность данного типа сканеров - повышенная надёжность конструкции, пакетная обработка документов, высокая производительность.

Планетарный сканер (книжный) - устройство, в котором при сканировании оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении относительно оптической системы и сканирующей линейной ПЗС матрицы сканера.

Данный тип сканера предназначен для сканирования скреплённых документов, периодических изданий и книг.

Особенность планетарных сканеров - бесконтактный метод сканирования, нет необходимости расшивки оригиналов, большая производительность при оцифровке книг и сшитых оригиналов.

 

 

Распознавание текстовых документов

FineReader – это система оптического распознавания текстов. Она преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т.е. в коды букв, «понятные» системе).

Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен вручную или посредством автоматического распознавания.

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы:

- определение областей распознавания

- определение таблиц

- определение картинок

- выделение в тексте строк и отдельных символов

- распознавания изображения

Все они тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.

OCR-системы могут достигать наилучшей точности распознавания — свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения — здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.

Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.

Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.

 

Архивирование файлов

Архиваторы — это программы, которые позволяют уменьшить размер файла для экономии места на диске или пересылки по электронной почте. При помощи архивации мы можем уменьшить размер файла или папки в несколько раз без потери текста и качества. Необходимо знать, что архивируя фото- или видеофайлы их размер практически не изменится.

Сейчас архивирование файлов используют именно для передачи файлов в интернете, т.к. папки в интернете передавать нельзя. Архив – это, по сути, файл, а значит с помощью архива можно передавать группу файлов. Если нужно по электронной почте оправить много файлов, например фотографии, то придется прикреплять каждый файл к письму отдельно. Это очень неудобно и занимает время. Поэтому проще будет заархивировать эти фото в один архив, прикрепить к письму и отправить. Именно по причине удобства, заархивированные файлы и папки очень часто встречаются в Интернете.

Сжиматься могут как один, так и несколько файлов, которые в сжатом виде помещаются в так называемый архивный файл или архив. Архивный файл — это набор файлов и каталогов, помещенных в один файл.

Программы, которые осуществляют упаковку и распаковку файлов, называются программами-архиваторами. Программы для архивации отличаются используемыми методами сжатия, что соответственно влияет на степень сжатия. В работе с архивами основными операциями являются:

1. архивация (упаковка) - помещение исходных файлов в архивный файл в сжатом или несжатом виде;

2. разархивация (распаковка) - процесс восстановления файлов из архива точно в таком виде, какой они имели до загрузки в архив. При распаковке файлы извлекаются из архива и помещаются на диск.

Для того чтобы заархивировать папку с файлами (или один файл), нужно нажать на нее правой кнопкой мыши, появиться контекстное меню (рис.1) и выбираем пункт «Добавить в архив».

Рис.1

Появится новое окно «Имя и параметры архива», в котором можно присвоить имя архиву и выбрать место для хранения архива. Нажав на кнопку «Обзор», выберем директорию, в которую хотим сохранить архив. Для начала архивирования нажмем кнопу «ОК» (рис.2).

Рис.2

Начнется процесс архивирования (рис.3)

Рис.3

По окончанию процесса архивирования в указанной директории появится файл имеющий вид стопки книг (рис.4)

Рис.4

Для того чтобы разархивировать архивный файл, нужно нажать на него правой кнопкой мыши и выбрать пункт «Извлечь файлы» (рис.5).

Рис.5

Затем появится новое окно, в котором нужно указать путь для извлечения файлов и нажать кнопку «ОК» (рис.6).

Рис.6

Начнется процесс разархивирования (рис.7)

рис.7

 

 

Список использованных источников и литературы

 

1. Степанов А. Н. Информатика: Учебник для вузов/ А. Н. Степанов – 6-е изд. – СПб-Питер, 2010 – 720 с.: ил.

2. Шпунт Я. Б. Сканирование: лучшие программы, полезные советы./ Я. Б. Шпунт – изд. 3-е испр. и доп. – М: ДМК Пресс, 2004 – 432 с.: ил. (самоучитель)

3. http://www.scankiev.com.ua/articles/000048.htm

4. http://www.novojonov.ru/content/soft-electronic-archive/08-scan-ocr.aspx

5. http://pc-gramota.com/arhivirovanie-faylov

 


Дата добавления: 2018-09-23; просмотров: 1076; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!