По мере совершенствования, речь синтезатора становится все более разборчивой. Этот метод синтеза речи весьма перспективен, т.к. речь действительно генерируется самим компом.
Математическое моделирование голосового тракта человека. Словарь в синтезаторе этого типа как и в первом методе обычно создается с участием человека, но в данном случае в память ПК записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз. Такой подход позволяет значительно уменьшить объем необходимой памяти. В этом заключается одно из главных достоинств метода. Синтезированная речь звучит естественно. Для ее генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.
Наиболее перспективным является второй метод. В настоящее время специалисты работают над тем, чтобы речь звучала живо, естественно и эмоционально.
Лингвистические информационные ресурсы ЛИР и базы данных БД
БД – это совокупность определенным образом упорядоченных сведений о некоторых объектах. Объекты могут быть материальными (студент) и нематериальными (процесс, явление). Каждый объект обладает свойствам (атрибутами), которым присваиваются определенные значения.
| № студенческого билета | Ф.И.О. | Дата рождения | Факультет | № группы | Стипендия (код) |
| 25989 | Сидоров | 1991 | перевод. | 102 | 100.000 (С-1) |
| 25590 | Иванов | 1992 | перевод. | 109 | 120.000 (С-2) |
Данные, которые составляют первую строку, называются записью. Чтобы пользователь мог обратиться к записи, ее необходимо идентифицировать, т.е. выбрать ключ (идентификатор), по которому будет выводиться инфа.
| Код | Стипендия |
| С-1 | 100.000 |
| С-2 | 120.000 |
Действия, которые можно производить над данными в БД:
Ввод новой записи
Обновление существующих записей
Удаление отдельных данных или записей
Поиск инфы
Поиск инфы – операция извлечения из БД любой инфы.
СУБД (системы управления базами данных)
СУБД – это совокупность программных средств, позволяющих осуществлять ведение БД и поиск в них инфы. Различают два типа СУБД :
Настольные : Microsoft Outlook, MS Excel, MS Access, Fox Base, Clipper
Сетевые – используют архитектуру клиент-сервер. Информация централизованно хранится на сервере: MS SQL Server , Informix .
Основные функции СУБД:
Обеспечить создание структуры БД, определить какая инфа будет хранится, какие атрибуты и типы данных.
Модификация инфы (добавление, удаление)
Поиск инфы
Лингвистические информационные ресурсы (ЛИР)
Пассивные формы информационных ресурсов: книги, журналы, газеты, словари, БД.
Активные: алгоритмы, программы, базы знаний.
ЛИР – определенным образом организованные речевые и языковые данные, находящиеся на машинных носителях и используемые в различных сферах практической деятельности.
В общем виде ЛИР – это своеобразная лингвистическая БД, которая может обновляться и в которой можно искать ту или иную инфу. ЛИР необходимы как пользователям ПК, так и самим компьютерным системам, связанным с обработкой текста и речи.
ЛИР включает:
Письменный лексикон
Письменные текстовые массивы
Фонетические лингвистические ресурсы
Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.
В компьютерной лингвистике используются следующие типы одноязычных словарей:
- частотно-алфавитные словари словоформ какого-либо текста
- словари-словоуказатели, где указывается частота, номер страницы и строки, на которой встретилось слово
- конкордансы – в них каждая словоформа характеризуется численными показателями и некоторым контекстом. Контекст дается – три предложения слева и справа.
- словари-энциклопедии
Энциклопедия – это словарь, содержащий характеристики не слова, а обозначенного им предмета, факта или явления.
- словари-тезаурусы, где указываются семантические связи между определенной частью его лексических единиц. 1852 г.
- терминологические словари – основная единица-термин
Термин – это слово или словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое в процессе познания и освоения научных и профессионально-технических объектов. Используются при переводе текстов с одного языка на другой, для создания учебников.
Письменные текстовые массивы (корпусы текстов) – совокупность текстов, являющаяся достаточной для обеспечения надежности научных выводов о некотором языке, подъязыке, диалекте. Суть сводится к тому, что достоверные данные о морфологической, фонетической, синтаксической и семантической структуре языка и речи могут быть получены из достаточно большого массива текстов.
Могут быть использованы:
- в лексикологии – для составления различных словарей, выделения терминов, определения значения многозначных слов
- в грамматике – для определения частоты употребления грамматических морфем, для выявления наиболее употребляемых типов словосочетаний и предложений
- в лингвистике – для дифференцирования типов текста, создания конкорданса при машинном переводе.
Сегодня стали создавать топированные корпусы текста. Слова такого корпуса получают буквенные и цифровые индексы, которые обозначают их грамматические, лексические, семантические, структурные признаки.
Дата добавления: 2022-01-22; просмотров: 22; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!
