Dragon Naturally Speaking 7.0 Preferred.



Однозначно лучший из существующих модулей распознавания речи. Вначале пользователю будет предложено откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под ваши тембр, интонацию и произношение. И наконец, интерактивный tutorial, где пользователя обучают базовым голосовым командам. До полного функционала дойти не получилось так как необходимо пройти настройку по интонации и произношению слов.

 

 

Intelligent Voice Recognition System.

Программа имеет возможность распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре. Управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные. Озвучивать электронные книги с помощью внешних голосовых движков. Работает только с английским языком.

 

Системы анализа текста. Системы. Описание процесса.

К системам анализа текста можно отнести огромное количество программ. Все они по-разному анализирует текст. Одни производят анализ с точки зрения пунктуации, другие с точки зрения орфографии, третьи объединяет в себе и то и другое.

Но помимо простых программ существуют и более сложные, которые позволяют анализировать текст написанный вручную. Они могут определить по стилю написания текста психическое состояние человека узнать его особенности, стиль речи. Такие системы позволят в современном мире ускорить отбор кандидатов по каким то критериям характера, оформить правильно текст письма, документа.

Начнем с наиболее популярных текстовых процессоров типа группы MS Office

MS Word – это текстовый процессор позволяющий набирать и редактировать текст. Он основывается на включении в его состав готовых шрифтов различных языков, а так же на наличии в нем интерфейса редактирования, систем анализа пунктуации и орфографии. Данный процессор в автоматическом режиме распознает наличие ошибок, сравнивая способ написания слов и предложений с имеющейся базой правил. Если правил по написанию какого то слова (например аббревиатуры) нет, то их можно внести вручную. При редактировании способа написания текста, Word анализирует команды от пользователя и тут же преобразует имеющийся текст в тот, который требуется. Плюсов у данной программы множество, но есть и минусы, такие как покупка лицензии, ресурсоемкость (у новых версий).

Аналогом MS Word может служить абсолютно бесплатный процессор семейства Open Office Writer который не только обладает всеми качествами Word но и обходит его по распространению с открытым кодом для разработчиков, поддержкой всех известных операционных систем и форматов текстовых файлов. Ресурсоемкость для него значительно ниже, но скорость работы не высока.

 

 

Rhymes - Программа поиска рифм на основе словаря Зализняка. При поиске выполняет фонетический анализ слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы, склоняет слово по падежам, выдает толкование слов. Общий размер словарной базы Rhymes составляет более 100 тыс. слов и 1.7 млн. словоформ. Распространяется бесплатно в версиях для Windows и IOS, а на компьютере занимает не больше 5 Мб. Может сразу добавлять слова из буфера обмена для дальнейшего анализа.

Так как многие программы занимают много места на компьютере или обладают особенными требованиями, существуют и более простые способы получить нужный анализ текста. Так, к примеру, существуют Online сервисы справляющиеся с задачами больших ресурсоемких программ, но притом не тратящих наше время на установку и настройку. К такому можно отнести сервис по ссылке в интернете http://advego.ru/text/seo/

Данный сервис позволяет разобрать введенный текст путем семантического анализа. Конечно данные такого анализа нельзя считать полноценными, ведь он разбирается без учета каких либо требований по установленному алгоритму, но в общем можно получить определенную информацию. Сервер, как мне кажется, чисто информативный. Поддерживает множество языков.

Следующая программа анализа текста позволит просканировать текст сравнив его с ресурсами поисковых систем по ключевым словам. Это программа Advego Plagiatus. Так как в современном мире много людей которые защищают докторские диссертации, пишут научные статьи и т.д. используя информацию уже выполненных исследований, что тормозит процесс развития, эта программа может уменьшить уровень плагиата. Рост популярности к данным программам за последнее время вырос. Данная программа сканирует ресурсы интернет по ключевым словам, ищет наиболее схожие статьи и сравнивает уровень схожести

 

Vaal-mini 1.5 - Программа для комплексного анализа эмоционального и фоносемантического воздействия на человека текстов и отдельных слов. Для оценки воздействия используются специальные шкалы. Расчёт ведётся на основе фоносемантических критериев оценки текста.

Давайте рассмотрим области применения данной программы согласно с рекомендациями официального сайта:

- Составление текстов выступлений с заранее заданными характеристиками воздействия на потенциальную аудиторию.

- Активное формирование эмоционального отношения к политическому деятелю со стороны различных социальных групп.

- Составление эмоционально окрашенных рекламных статей.

- Поиск наиболее удачных названий и торговых марок.

- Психо- и гипнотерапия.

- Неявное психологическое тестирование и экспресс-диагностика.

- Создание легких в усвоении учебных материалов.

- Научные исследования в области психолингвистики и смежных с нею дисциплинах.

- Журналистика и другие сферы деятельности, использующие в качестве инструмента СЛОВО.

- Социологические и социолингвистические исследования.

- Информационные войны.

- Контент-анализ текстов.

- Мониторинг СМИ.

Система также позволяет:

- Оценивать неосознаваемое эмоциональное воздействие фонетической структуры текстов и отдельных слов на подсознание человека.

- Подбирать слова с заданными фоносемантическими характеристиками.

- Задавать характеристики желаемого воздействия и целенаправленно редактировать тексты для достижения указанных характеристик.

- Корректировать текст по выбранным параметрам.

- Настраиваться на различные социальные и профессиональные группы людей, которые могут быть выделены по используемой ими лексике.

- Оценивать звуко-цветовые характеристики текстов.

- Производить факторный анализ данных с последующей визуализацией результатов.

- Осуществлять полноценный контент-анализ текста по большому числу специально составленных встроенных категорий.

- Производить эмоционально-лексический анализ текстов.

Программа занимает пару мегабайт на компьютере. Имеет русский и украинский интерфейс.

На следующем рисунке можно видеть как программа проанализировала сказку про Колобка. Анализ своеобразный и непонятно как организован. Хотя по словам автора программа очень хорошая, но на деле итоговые данные неоднозначны и не понятны критерии определений. К плюсам отнесем малый размер, быструю скорость работы, рускоязычность и необычность анализа. Может быть в расширенной версии все реализовано подробнее и углубленнее.

 

 

 

Самый простой анализатор текста основанный на простом подсчете текстовых данных (кол во слов и т.п.) Simple Word Sorter

Хочу очень коротко описать программу Simple Word Sorter. Она бесплатна и подойдёт тем, кто хочет сделать экспресс контент-анализ документа, просто идентифицировав наиболее часто встречающиеся слова, тем самым, например, определив, какие темы и микро темы доминируют в пространстве анализируемого текста. Программа также позволяет отсортировать все слова по алфавиту, ну и ещё несколько функций сортировки

 

 

Перейдем к более серьезным программам которые не только выполняют полезные функции, но и значительно объемнее. Такие программы соответственно, обычно, платные.

Первая программа это ABBYY FineReader - программа для распознавания текста, позволяет быстро и точно переводить изображения документов и PDF-файлы в электронные редактируемые форматы(DOC, XLS, RTF, PPT, HTML, PDF, PDF/A, CSV, TXT и DJVU.) без необходимости перепечатывания .

Получить изображение для распознавания можно не только с помощью сканера: достаточно иметь с собой цифровой фотоаппарат или мобильный телефон со встроенной фотокамерой.

 Программа основана на сравнении контрастных данных с цифровой картинки с имеющейся базой шрифтов и стилей написания букв. Итог формируется в текстовый файл на выбор. Распространяется на операционных системах Windows и Mac. Программа является платной и стоит порядка 3500р. Но как и у всех программ такого типа есть проблема с тем что компьютер не понимает смысл текста и его связанность, в результате чего, хотя разработчики и утверждают что все идеально, появляется неточное форматирование и слова не принадлежащие данному контексту. Скорость опознавания текста достаточно низка и занимает несколько минут, после чего итоговый файл всеравно надо форматировать.

CuneiForm – бесплатная система от российской компании Cognitive Technologies, которая позволяет осуществлять оптическое распознавание текстов.
В самом начале, данная система разрабатывалась как коммерческий продукт и шла в комплекте с определенными моделями сканеров. На сегодняшний день CuneiForm является системой для преобразования электронных документов, а также изображений в редактируемый вид, позволяя при этом сохранять структуру и шрифты оригинала, как в автоматическом, так и в полуавтоматическом режиме.


В состав CuneiForm входят две программы, которые используются как для одиночной, так и для пакетной обработки документов в электронном виде. Главный плюс это ее бесплатность, менее сложные алгоритмы и простота оформления.

SimpleOCR (Optical Character Recognition) – приложение для распознания отсканированного текста на иностранных языках (английский, французский, голландский). OCR (оптическое распознание символов) помимо распознания позволяет редактировать текст, находить слово или фразу по средствам ввода искомой комбинации, анализировать, переводить, распечатывать, форматировать и т.д.
При должном качестве снимка точность распознания латинского текста достигает 99%. Оставшийся процент дается на ручную корректировку символов. Плюсом является то что словарь данной программы достаточно обширен (более 120 тысяч слов), но, в случае чего его всегда можно дополнять вручную через текстовый редактор, а так же имеется возможность распознания рукописного текста. Минус – нет русского языка, а оформление не современно.
Список использованной литературы

1. Семантические сети и концептуальные графы – [Электронный ресурс] – режим доступа: https://sites.google.com/site/anisimovkhv/learning/knowledge/lecture/tema5 – Загл. с экрана.

2. Поисковая система – [Электронный ресурс] – режим доступа: https://ru.wikipedia.org/wiki/Поисковая_система – Загл. с экрана.

3. Обзор онлайн – переводчиков – [Электронный ресурс] – режим доступа:

http://www.primavista.ru/rus/articles/online_translators_part1 – Загл. с экрана.

4. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.

 

 


Дата добавления: 2018-02-15; просмотров: 747;