Автоматизация ввода информации в компьютер



Одной из основных задач информатики является разработка и внедрение средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Основным методом такого перевода является сканирование.

Сканирование – это технологический процесс, в результате которого создается графический образ. Существуют несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая точка). В результате создается графический файл, в котором хранится растровое изображение исходного документа. Количество точек определяется как размером изображения, так и разрешением сканера.

Сканеры для ввода текстов и иллюстраций:

Ручные сканеры. Не имеет движущихся частей, сканирование производится путем перемещения сканера по документу. Наименее качественное изображение. Очень узкая полоса сканирования.

Листовые сканеры. За одну операцию сканируется лист стандартного формата. Блок сканирования неподвижен, а бумага протягивается мимо него как в принтере. Гарантируют хорошее качество сканирования.

Планшетные сканеры. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Обеспечивают наилучшее качество и максимальное удобство при работе.

Связь сканера с операционной системой:

- Есть сканеры со специальной платой-контроллером, которая устанавливается в одно из гнезд материнской платы.

- Есть сканеры, которые подключаются к свободному параллельному порту (порту принтера).

- Для стандартизации программного интерфейса связи операционной системы и различных сканеров был создан протокол TWAIN, который должен поддерживаться и ОС и сканером.

Программы оптического распознавания текстов

С точки зрения компьютера, документ после сканирования превращается в набор точек, а не в текстовый документ. Проблема распознавания текста в составе графического изображения является весьма сложной.

Ранее распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные программные системы назывались OСR (оптическое распознавание символов), они опирались на специально разработанные шрифты, облегчавшие такой подход. В последние годы появились совершенно новые алгоритмы распознавания образов и программы, построенные на этих алгоритмах, могут справляться с текстом, не ориентируясь на конкретный шрифт или алфавит, в том числе текст может быть и рукописным.

Наиболее широко известны и распространены программы отечественных производителей FineReader и CuneiForm.

Программа FineReader (ABBY Software). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

 

Возможности:

- Работает с разными моделями сканеров.

- Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.

- Позволяет редактировать распознанный текст и проверять его орфографию.

- Обучается неизвестным ей шрифтам и учитывает дефекты начертания букв.

- Сохраняет оформление документа, запоминая расположение текста в колонках, таблицы, рисунки и шрифтовое оформление бумажного оригинала.

- Распознает табличные данные и сохраняет их в формате электронных таблиц.

- Экспортирует результат напрямую в MS Word или Excel

Автоматический перевод документов

Автоматический перевод текстов с одного языка на другой - очень сложная задача, о полном ее решении пока говорить не приходится.

Все проблемы заключаются в объеме переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако, когда речь идет о переводе целых фраз и, тем более, абзацев связного текста, все осложняется..

Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксический и смысловой. Синтаксический уровень определяет построение предложения, а смысловой - его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и смысл всего абзаца или даже целой главы текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя.

Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить, поэтому программу перевода текста иностранного языка на русский, можно рассматривать как средство получения простейшего черновика.

Программные средства автоматического перевода можно условно разбить на две основные категории. Первую категорию представляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвестного слова. Преимущество их состоит в быстром доступе и удобстве автоматического поиска значения выделенное слова. Автоматический словарь обычно предоставляет возможность перевода слова по нажатию выделенной комбинации клавиш.

Ко второй категории относятся программы-переводчики, позволяющие выполнить автоматический перевод связного текста. Они принимают текст на одном языке и выдают текст на другом языке. В ходе работы программа использует обширные словари, наборы грамматических правил и другие средства, обеспечивающие наилучшее, с точки зрения программы, качество перевода. Чем короче предложение, тем больше шансов на то, что преобразование будет правильным.

Программы-переводчики комплектуются, кроме общих словарей, специализированными словарями по разным областям человеческой деятельности и могут переводить потоком фрагмент текста или весь текст.

В России наиболее широкое распространение получили программы автоматического перевода с английского языка на русский и с русского на английский, такие как Stylus и Socrat. Stylus обеспечивает более высокое качество и более высокую гибкость при переводе. Последние версии Stylus сменили название на Promt98, Promt 2000.

Программа Promt98. Программа предназначена для автоматического перевода с английского языка на русский и с русского на английский.

- Способна работать с документами в различных форматах, допускает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.

- Включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управления их использованием. Перевод слов не входящих в словари можно определить самостоятельно и сохранить в пользовательском словаре.

- Позволяет указать правила работы с именами собственными и другими словами, не требующими перевода.

- Имеет отдельные приложения, позволяющие пакетный перевод файлов (File Translator), быстрый перевод неформатированного текста (Qtrans), синхронный перевод Web–страниц в Интернете (WebView).


Дата добавления: 2018-02-15; просмотров: 485;