синтаксические, семантические и стохастические методы понимания естественного языка.

***

Си́нтаксис (от др.-греч. σύνταξις — «построение, порядок, составление») — раздел лингвистики, изучающий строение предложений и словосочетаний.

В синтаксисе решаются следующие основные вопросы:

связь слов в словосочетаниях и предложениях;

рассмотрение видов синтаксической связи;

определение типов словосочетаний и предложений;

определение значения словосочетаний и предложений;

соединение простых предложений в сложные.

синтакси́ческий ана́лиз (па́рсинг) — это процесс сопоставления линейной последовательности лексем (слов, токенов) языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево). Обычно применяется совместно с лексическим анализом. Синтаксический анализатор (парсер) — это программа или часть программы, выполняющая синтаксический анализ.

При парсинге исходный текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.

Как правило, результатом синтаксического анализа является синтаксическая структура предложения, представленная либо в виде дерева зависимостей, либо в виде дерева составляющих, либо в виде некоторой комбинации первого и второго способов представления.

Синтаксис — сторона языка программирования, которая описывает структуру программ как наборов символов (обычно говорят — безотносительно к содержанию). Синтаксису языка противопоставляется его семантика. Синтаксис языка описывает «чистый» язык, в то же время семантика приписывает значения (действия) различным синтаксическим конструкциям.

Си́нтаксис в семиотике — совокупность отношений между знаками, а также раздел семиотики, изучающий эти отношения. Называется также термином «синтактика».

***

Сема́нтика (от др.-греч. σημαντικός — обозначающий) — раздел языкознания, изучающий значение единиц языка. В качестве инструмента изучения применяют семантический анализ. В конце XIX — начале XX века семантика часто называлась также семасиологией (от др.-греч. sēmaino — указываю, означаю). Учёные, занимающиеся семантикой, до сих пор обычно называются семасиологами. Также «семантикой» может обозначаться сам круг значений некоторого класса языковых единиц (например, «семантика глаголов движения»).

Сема́нтика в программировании — дисциплина, изучающая формализации значений конструкций языков программирования посредством построения их формальных математических моделей. В качестве инструментов построения таких моделей могут использоваться различные средства, например, математическая логика, λ-исчисление, теория множеств, теория категорий, теория моделей, универсальная алгебра. Формализация семантики языка программирования может использоваться как для описания языка, определения свойств языка, так и для целей формальной верификации программ на этом языке программирования.

Латентно-семантический анализ (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов[1].

***

Слово стохастический (от греч. στοχαστικός — «умеющий угадывать») используется во многих терминах из разных областей науки, и в общем означает неопределённость, случайность чего-либо.

Стохастический, т.е Случа́йный проце́сс (случайная функция) в теории вероятностей — семейство случайных величин, индексированных некоторым параметром, чаще всего играющим роль времени или координаты.

Другое определение:

Случайным называется процесс u(t), мгновенные значения которого являются случайными величинами.

В стохастическом анализе, где сама модель составляется на основе совокупности эмпирических данных, предпосылкой получения реальной модели является совпадение количественных характеристик связей в разрезе всех исходных наблюдений. Это означает, что варьирование значений показателей должно происходить в пределах однозначной определенности качественной стороны явлений, характеристиками которых являются моделируемые экономические показатели (в пределах варьирования не должно происходить качественного скачка в характере отражаемого явления).

***

Метод подстановки напрямую применяется для текущей задачи, чтобы привести ее к известным аксиомам и теоремам.
Отсюда следует, что для построения систем автоматических рассуждений используются слабые методы решения проблем. Они строятся на таком однородном представлении, как теория предикатов первого порядка, теория хорновских выражений или операторов разрешения.

Метод подстановки напрямую применяется для текущей задачи, чтобы привести ее

к известным аксиомам и теоремам.

Если этот метод не приводит к успешному доказательству, используются все возможные открепления и замены, и для каждого из результатов снова применяется метод подстановки. Если получить доказательство теоремы не удается, то все эти результаты добавляются в список подзадач (subproblem list).

Затем для поиска новой подзадачи, решение которой обеспечивает доказательство

исходного утверждения, используется метод цепочки, учитывающий транзитивность импликации. Таким образом, если для задачи а® с получено b® c, то в качестве новой подзадачи выбирается а® b.

Если первые три метода не приводят к ожидаемому результату, то система выбирает следующую подзадачу из списка.

Эти четыре метода применяются до тех пор, пока не будет найдено решение, не исчерпается список подзадач, память или время, выделенные для решения задачи.

Метод резолюции

Резолюция - это один из приемов доказательства теорем в области исчисления высказываний или предикатов, относящийся к сфере искусственного интеллекта.

Резолюция - это правило вывода, используемое для построения опровержений (refutation)
Резолюция - это согласованное правило вывода

Метод записи ответов очень прост. Берется исходное подлежащее доказательству заключение и к нему добавляется каждая подстановка унификации, сделанная в процессе резолюции. Таким образом, исходное заключение становится "учетчиком" всех сделанных в процессе резолюции подстановок унификации. При компьютерной реализации это может потребовать увеличения числа указателей, если при поиске опровержения существует несколько вариантов выбора. Для получения альтернативного пути решения понадобится механизм управления, например возврата. Однако при аккуратной реализации эту дополнительную информацию можно сохранить.

___________________________________________________________________________

2. В чем заключается понимание естественного языка: а) человеком б) компьютерной программой?

В 1984 году Сёрль формулирует свою идею более формализованно. Он рассматривает следующие предпосылки:

Предпосылка 1: Мозг порождает разум.

Предпосылка 2: Синтаксиса недостаточно для существования семантики.

Предпосылка 3: Компьютерная программа полностью определяется своей синтаксической структурой.

Предпосылка 4: Человеческий разум оперирует смысловым содержанием (семантикой).

И делает заключения:

Заключение 1: Программы не являются сущностью разума и их наличия недостаточно для наличия разума.

Заключение 2: Тот способ, посредством которого человеческий мозг на самом деле порождает ментальные явления, не может сводиться лишь к выполнению компьютерной программы.

Заключение 3: То, что порождает разум, должно обладать по крайней мере причинно-следственными свойствами, эквивалентными соответствующим свойствам мозга.

а) человек - оперирует семантикой - смысловым содержанием, ведет диалог с другим человеком, понимает его намерения

б) машина ведет диалог задавая вопросы и получая на них ответы.

Понимание естественного языка включает куда больше, чем разбор предложений на индивидуальные части речи и поиск значений слов в словаре. Оно базируется на обширном фоновом знании о предмете беседы и идиомах, используемых в этой области, так же, как и на способности применять общее контекстуальное знание для понимания недомолвок и неясностей, присущих естественной человеческой речи.

Процесс понимания естественного языка(ЕЯ) – это процесс передачи данных от одного человека к другому. Несмотря на всю свою кажущуюся простоту, это процесс чрезвычайно сложен. Он подразумевает наличие общего контекста знаний у обоих партнеров и согласованных механизма понимания используя мощные вычислительные ресурсы, связанные с интеллектом разговаривающих.

Люди общаются друг с другом на естественных языках, например на английском, немецком и т. п. Вычислительные же машины общаются с людьми в так называемом интерактивном режиме с помощью специальных языков диалога, подчиненных строгим семантическим и синтаксическим ограничениям. Поэтому при общении с ЭВМ в интерактивном режиме многие пользователи испытывают затруднения.

____________________________________________________________________________

3.Какие критерии понимания могут быть предложены?

Представление смысла текста и критерии понимания текста. Как представлять смысл текста?

Предлагается некоторый вариант семантической записи для текста, в которой представлен в явном виде не только смысл слов (например, в виде комбинаций элементарных смыслов), но и значение связей между ними. Последние предлагается выражать в записи отдельными элементами, которые будем называть «смысловыми отношениями». Эти чисто смысловые отношения типа часть (А – часть В), начало (А – начало В), результат (А – результат В), актант (А – актант В), адресат (А – адресат В) и другие должны отражать реальные соотношения между объектами, упоминаемыми в тексте.

Мы предлагаем фиксировать в смысловой записи в явном виде все смысловые отношения, соответствующие тексту, независимо от того, выражены они в тексте явно или неявно, и независимо от типа синтаксической связи. Элементами смысловой записи предлагается считать «слова» (названия конкретных действий, состояний, свойств, предметов и т.д.) и «смысловые отношения» (названия тех функций, которые одни конкретные предметы, действия, свойства и т.д. выполняют по отношению к другим предметам, действия, свойствам и т.д.). Примеры «слов»: бить, держать, идти, лес, комната, мальчик, красный, быстро и др. Примеры «смысловых отношений»: результат (,) конец (,) участник (,), часть (,) и др.

Если исходить из известного всем лингвистам записи в виде многоместного предиката, лексемы распределятся по этим «словам» и «отношениям» следующим образом:

1. Все синтаксические отношения будут заменены смысловыми отношениями, например, запись вида «требовать (я, ты, прийти)» может быть представлена таким образом:

Я – субъект требовать;

ты – адресат требовать;

ты – субъект прийти;

прийти – содержание требовать,

или эквивалентной записью в бинарных отношениях:

субъект (я, требовать),

адресат (ты, требовать),

субъект (ты, прийти),

содержание (прийти, требовать).

2. Все непредикаты станут «словами», т.е. элементами, стоящими в скобках (в данном примере «слова» я, ты). 3. Предикаты первой группы (глаголы и глагольные формы) перейдут в «слова» (требовать, требование, прийти), предикаты второй группы (предлоги, союзы) – в «смысловые отношения».

Все смысловые отношения двухместны. Смысловое отношение с заполненными местами является, по сути дела, смысловым ядерным предложением (далее будем называть их сокращенно СЯ-предложениями).

Набор подобных СЯ-предложений для текста образует смысловую запись этого текста.

Критерии понимания

Сформулируем критерий понимания смысла текста. Текст понят, если говорящий может:

а) перераспределять общий смысл текста не только между словами, но и между предложениями (т.е. передавать тот же смысл другим набором предложений, включая изменение порядка их следования). Ведь распределение общего смысла текста между предложениями так же произвольно, как распределение общего смысла предложения между словами;

Б) с одной стороны, восстанавливать все смысловые сокращения в тексте (т.е. пересказывать текст так, чтобы ни одно предложение не содержало элементов, отсылающих к смыслу другого предложения), а с другой стороны – сокращать повторяющиеся части смысла.

Примеры

Рассмотрим смысловую запись (несколько упрощенную) для простого предложения

Прыгали кенгуру с детенышами в сумках:

(1) субъект (кенгуру, прыгать)

(2) часть (сумка, кенгуру)

(3) принадлежность (детеныши, кенгуру)

(4) локализация (сумки, детеныши)

Каждому из этих СЯ-предложений соответствует несколько языковых выражений:

(1) кенгуру прыгали, прыжки кенгуру и др.

(2) кенгуру имеют сумку, кенгуру с сумками, сумки кенгуру, сумки у кенгуру и др.

(3) у кенгуру есть детеныши, детеныши кенгуру, кенгуру имеют детенышей и др.

(4) детеныши находятся (сидят) в сумках, внутри сумки детеныши, сумка с детенышами и др.

Разные комбинации этих выражений создают возможности объединить их в предложения иначе, чем исходное объединение:

Прыгали кенгуру с сумками. В сумках у кенгуру находятся детеныши.

Кенгуру совершали прыжки. У кенгуру сумки. Кенгуру имеют детенышей. Детеныши сидят в сумках и др.

Теперь возьмем короткий текст.

Открылось заседание. Сначала выступил Иванов. Он говорил мало. Он рассказывал о строительстве.

Сопоставим каждому предложению его смысловую запись (местоимениям, а также опущенными словам будет соответствовать пустое место).

Открылось заседание.

1. начало (, заседание).

Сначала выступил Иванов.

2. субъект (Иванов, выступление),

3. начало (выступление,).

Он говорил мало.

4. субъект (, говорить)

5. включено (говорить, малый Т), где Т – отрезок времени

Он рассказывал о строительстве.

6. субъект (, рассказывать),

7. адресат (, рассказывать),

8. содержание (строительство, рассказывать),

9. субъект (, строить),

10. объект (, строить).

Восстановление смысловых сокращений должно происходить в результате сравнения СЯ-предложений. В данном наборе СЯ-предложений может быть восстановлена только часть пустых мест.

В 1-м и 3-м СЯ-предложениях пустые места заполняются при объединении их в одно (формально они совместимы. Содержательные ограничения: у отношения начало оба члена должны быть однородными: «процесс – процесс» или «предмет - предмет». Это условие тоже соблюдено). Результирующее СЯ-предложение:

1,3. начало (выступление, заседание).

Для восстановления субъекта в 4 и 6 сравниваем их с 2. Из сравнения словарных смысловых признаков слов, стоящих на вторых местах, извлекаем, что выступать в некотором смысле эквивалентно говорить (выступление может проявляться в говорении), а говорить эквивалентно рассказывать (рассказывать – частный случай говорить). Значит, в СЯ-предложениях 4 и 6 может быть записан субъект предложения 2:

4) субъект (Иванов, говорить),

6) субъект (Иванов, рассказывать).

Неполные СЯ-предложения 7, 9, 10 не могут быть восстановлены в данном наборе.

Теперь рассмотрим полученный набор СЯ-предложений с точки зрения смыслового дублирования. 2, 4, 6 дублируют смысл друг друга (так как выступать = говорить = рассказывать). Оставляем из них 6 как самое конкретное. Подставляем слово рассказывать в другие предложения, где есть эквивалентные ему слова:

1,3. начало (рассказывать, заседание),

5. включено (рассказывать, малый Т).

Остается семь СЯ-предложений, представляющих смысл данного текста в неизбыточном виде:

1) начало (рассказывать, заседание),

2) субъект (Иванов, рассказывать),

3) содержание (строить, рассказывать),

4) включено (рассказывать, малый Т),

5) адресат (, рассказывать),

6) субъект (, строить),

7) объект (, строить).

Этому набору может, например, соответствовать неизбыточное языковое выражение: В начале заседания Иванов кратко рассказал о строительстве. Одновременно запись показывает, что данный текст неполон: неясно, кому Иванов рассказывал, кто строит и что строит.

Возьмем продолжение текста: Собравшиеся услышали, что государство планирует построить 100 садов, в виде СЯ-предложений:

8. субъект (собравшиеся, слушать),

9. объект (100 садов, строить),

10. субъект (государство, планировать),

11. содержание (I0, слушать),

12. содержание (строить, планировать).

В этом наборе из 10 и 12 можно сделать вывод: субъект (государство, строить). Из смысла слова планировать и 12 следует:

13. включено (строить, Тк),

14. после (Тк, текущий Т).

Из соотношения по смыслу слов рассказывать–слушать (субъект слушать=адресат рассказывать) и 8 выводим: адресат (собравшиеся, рассказывать).

Таким образом оказываются заполненными все СЯ-предложения первого набора:

5. адресат (собравшиеся, рассказывать),

6. субъект (государство, строить),

7. объект (100 садов, строить).

Этой полученной полной записи первого и второго текстов (включая 13 и 14) соответствует, например, предложение В начале заседания Иванов кратко рассказал собравшимся, что государство построит 100 садов.

Смысловая полнота текста определяется по отношению к его смысловой записи. Текст, в смысловой записи которого все валентности «слов» и отношений взаимно насыщены, является полным, или автономным, по смыслу. Наличие в записи пустых мест или «слов» с невыясненной валентностью (например, местоимений) – свидетельство его неполноты.

_____________________________________________________________________________

4. Возможно ли построение программ, понимающих естественный язык? Есть ли принципиальные трудности, делающие построение таких программ невозможным?

Из-за огромных объемов знаний, требуемых для понимания естественного языка, большая часть работы ведется в хорошо понимаемых, специализированных проблемных областях. Одной из первых программ, использовавших такую методику «микромира», была программа Винограда SHRDLU – система понимания естественного языка, которая могла «беседовать» о простом взаимном расположении блоков разных форм и цветов. Программа SHRDLU могла отвечать на вопросы типа: «Какого цвета блок на синем кубике?», а также планировать действия вроде «передвинь красную пирамидку на зеленый брусок». Задачи этого рода, включая управление размещением блоков и их описание, на удивление часто всплывали в исследованиях искусственного интеллекта и получили название проблем «мира блоков».

Несмотря на успехи программы SHRDLU в разговорах о расположении блоков, она была не способна абстрагироваться от мира блоков. Методики представления, использованные в программе, были слишком просты, чтобы передать семантическую организацию более богатых и сложных предметных областей. Основная часть текущих работ в области понимания естественных языков направлена на поиск формализмов представления, которые должны быть достаточно общими, чтобы применяться в широком круге приложении и уметь адаптироваться к специфичной структуре заданной области. Множество разнообразных методик (большинство из которых являются развитием или модификацией семитических сетей) исследуются c этой целью и используются при разработке программ, способных понимать естественный язык в ограниченных, но достаточно интересных предметных областях. Но полное понимание языка на вычислительной основе все же остается далеко за пределами современных возможностей.

***

В самых первых программах диалога на естественном языке (таких, как программа Грина BASEBALL, Линдсея - SAD-SAM, Боброу - STUDENT и Фейценбаума - ELIZA) факты, относящиеся к определенной узкой области, хранились в специально приспособленных для этого структурах данных. При вводе простейших повествовательных и вопросительных предложений программа начинала искать в них заранее определенные ключевые слова и шаблонные конструкции. Эти программы были столь ограниченны по своим возможностям, что игнорировали многие сложные аспекты реального языка.

Другой подход к диалогу на естественном языке, также применявшийся на первых порах, состоял в том, что представление некоторого определенного текста целиком помещалось в базу данных с использованием хитроумных схем индексации, позволявших извлекать фрагменты текста, содержащие выделенные слова или фразы. Подобных систем, основанных на хранении текстов, тоже были ограничены, поскольку ответы, которые они давали на вопросы пользователям, могли содержать лишь то, что было предварительно и явным образом записано в базу данных. В поисках средств формального выражения и использования смысла предложений были разработаны системы, основанные на узких логических исчислениях, подобные системам SIR и TLS. Для записи информации в базу данных в этих системах употреблялась особая формальная нотация, а также имелись механизмы семантического анализа и перевода исходных выражений во внутреннее представление. Разработчики стремились к тому, чтобы эти системы обладали способностью делать логические выводы по информации, хранящейся в базе данных, и давать ответы (не записанные в нее явным образом) на соответствующие вопросы. Недостатком этих систем являлось то, что их способность к дедукции была ограничена сведениями, которые явно или неявно представлены в базе данных.

В настоящее время разработка программ, понимающих естественный язык, тесно связана с представлением знаний в экспертных системах. Эти программы используют проблемно-ориентированную информацию из базы знаний, чтобы понимать смысл предложений и взаимодействовать с пользователем на ограниченном диалекте естественного языка. Например, способностью вести диалог с пользователем на естественном языке обладают системы EMYCIN, TEIRESIAS и KAS

***

Так как цели автоматизации накопления знаний и понимания естественного языка весьма неоднозначны, дать точное определение тому, что лежит в основе семантической сетевой модели данных, весьма трудно. Попытки создать модель, которая превосходила бы все другие в плане возможностей представления знаний, привели к появлению целого ряда таких моделей. [4]

Следующим очевидным недостатком техники, используемой для понимания естественного языка, является пословный анализ значения фразы. По мере роста базы знаний увеличивается количество атрибутов, обозначаемых с помощью одинаковых терминов, что в свою очередь увеличивает количество неправильных вариантов разбора. Кроме того, целесообразно генерировать до конца не все возможные варианты разбора, а только те, которые подтверждаются существующими моделями. [5]

Поскольку на тот момент не было создано достаточно полной модели всей системы понимания естественного языка, то и ответа на этот каверзный вопрос не могло быть, если только не делать полного перебора всех возможных корректных американских фраз, что, очевидно, невозможно. Виноград сказал мне в частном разговоре, что такие неудобные фразы действительно существуют, но как-то охарактеризовать их он пока не в состоянии. На наш взгляд, именно это обстоятельство объясняет то, что бесчисленные последующие попытки создания систем управления командами, отдаваемыми на естественном языке, с тех пор так и не прекратились, сопровождаясь каждый раз все более яркими машинными демонстрациями, следуя моде, установленной еще в 60 - х годах. [6]

***

Сложность понимания естественных языков при решении задач искусственного интеллекта объясняется многими причинами. В частности, для использования языка необходимы большой объем знаний, способностей и опыта. Успешное понимание языка требует осмысления естественного мира, знания человеческой психологии и социальных аспектов. Для этого нужна реализация логических рассуждений и интерпретация метафор. Из-за сложности и многогранности человеческого языка на первое место выходит проблема исследования представления знаний. Попытки таких исследований увенчались успехом лишь частично. На основе знаний были успешно разработаны программы, понимающие естественный язык в отдельных предметных областях. Возможность создания систем, решающих проблему понимания естественного языка, до сих пор является предметом споров.

Дата добавления: 2016-01-05; просмотров: 25; Мы поможем в написании вашей работы!

Поделиться с друзьями:

Мы поможем в написании ваших работ!