Классификация документов – их распределение по классам на основе признаков сходства или различия.



Основные термины и ОПРЕДЕЛЕНИЯ

 

Базы данных – массивы формализованной информации, используемые в автоматизированных информационных системахдля хранения, поиска и обработки информации. Информация в базах данных может быть представлена в различных форматах: двумерные таблицы, анкеты, элементарные триады, семантические сети, фреймы и др. С легкой руки Е.Ф. Кодда, с 1970 года некоторые базы данных с табличной формой представления информации стали называться реляционными – то есть базами данных с отношениями (relation). В основе предложений на естественном языке и формализованных логических высказываний лежит предикатно-актантная структура, компонентами которой являются понятия-предикаты (отношения) и понятия-актанты, выступающие в роли описываемых объектов. В естественных языках и в формализованных языках предикатно-актантные структуры являются теми смысловыми инвариантами, которые позволяют осуществлять автоматический перевод текстов с естественных языков на формализованные и с формализованных на естественные. Они позволяют также осуществлять автоматический перевод текстов с одних языков на другие.

Базы знаний - массивы формализованной информации, используемые в автоматизированных “интеллектуальных” информационных системах для хранения, поиска и обработки информации. Такие массивы, наряду с признаками конкретных объектов, могут содержать и описания абстрактных объектов и формализованных процедур. Следует заметить, что в естественных языках характерным свойством наименований понятий является их многозначность и “размытость” Слова и словосочетания в этих языках приобретают конкретные “значения” только в тексте (плюс - в конкретном “подтексте”). Это создает объективные предпосылки для различного рода спекуляций. Например, некоторые ученые считают, что “знания” – это категория более высокого порядка, чем “данные” и, следовательно, системы, основанные на знаниях, заслуживают более высокой оценки, чем системы обработки данных. В общем случае (вне контекста) можно ориентировочно считать, что понятие информация является родовым по отношению к понятиям данные и знания.

Гипертекст - способ представления текстовой информации в автоматизированных поисковых системах, при которомшироко используютсяперекрестные ссылки междудокументами и их фрагментами. Эти ссылки можно рассматривать как некоторую семантическую сеть.

Дерево предложения, дерево зависимостей — представление структуры предложения в виде ориентированного графа, узлы которого соответствуют компонентам структуры зависимостей.

Единицы смысла в языке и речи - Основными единицами смысла в естественных языках являются понятия, предложения и сверхфразовые единства (связный текст). Понятия являются минимальными (базовыми) единицами смысла. Из наименований понятий составляются предложения, которые имеют предикативную структуру, т.е. в них указываются признаки объектов и (или) отношения между ними. Сверхфразовые единства представляют собой последовательности предложений, объединенные общим смыслом. В человеческом сознании понятия представляют классы объектов, а в целом система понятий каждого языка является системой категоризации действительности. При этом важно подчеркнуть, что разные языки могут иметь разные системы категоризации действительности, т. е. могут отличаться друг от друга составом используемых в них понятий.

Индексирование документов – представление их основного смыслового содержание на формализованных языках. В качестве языков индексирования могут выступать языки классификации, дескрипторные языки и др.

Информатика– наука об информации и способах ее хранения, передачи и обработки.

Информация – В широком понимании этого термина информацию следует рассматривать как психические образы объективного мира, возникающие у живых организмов в процессе их жизни и взаимодействия с окружающей средой. Характер “информационного” отображения окружающей среды во “внутреннем мире” различных животных бывает разный: у волка он - волчий, у овцы – овечий, у человека – человечий. Он определяется генетической структурой организмов и их “жизненным опытом”, приобретаемым в процессе адаптации к условиям окружающей среды. Передача информации от одного животного к другому и, прежде всего, от человека к человеку осуществляется с помощью знаков. Наиболее совершенный инструмент общения между людьми - естественный язык - представляет собой знаковую систему. Швейцарский лингвист Фердинанд де Соссюр различал в языковых знаках два компонента – означающее (звуковой или графический образ) и означаемое (соответствующее ему понятие). При формировании речевых сообщений человек осуществляет акт постижения в понятиях имеющейся у него информации и кодирования ее языковыми знаками. При восприятии знаков речевых сообщений у человека возникают соответствующие им мыслительные образы. По каналам связи передаются только означающие.

Классификация документов – их распределение по классам на основе признаков сходства или различия.

Концептуальный анализ текстов - выявление понятийного состава текстов путем их семантико-синтаксического анализа.

Лексема— слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разныепарадигматические формы (словоформы) одного слова (например, «словарь, словарём, словарю» и т. п.).

Лингвистическое обеспечение автоматизированной системы - совокупность языковых средств, используемых в автоматизированных системах, а также правил формализации естественного языка в целях повышения эффективности машинной обработки информации.

Лингвистический процессор — набор процедур для обработки текстов на естественном языке, которые являются входной информацией автоматизированных систем.

Морфологический анализ слов – выявлениеих морфемной структуры (выделение их корней, основ слов, префиксов и суффиксов) и определение грамматической информациик ним.

Морфологический синтез слов – формирование конкретных форм слов (словоформ) с учетом заданной контекстуальной грамматической информации о них.

Обратный словарь слов – словарь, в котором слова расположены не в обычном, а в обратном лексикографическом порядке: то есть они располагаются по алфавиту последних букв, затем – предпоследних, затем - третьих от конца букв и т.д.

Понятие (концепт) - это социально значимый мыслительный образ, за которым в языке закреплено его наименование в виде отдельного слова или, значительно чаще, в виде устойчивого фразеологического словосочетания. Под устойчивыми фразеологическими словосочетаниями он понимает не только идиоматические выражения, но и любые повторяющиеся отрезки связных текстов длиной от двух до десяти-пятнадцати слов (более длинные устойчивые словосочетания встречаются редко). В развитых языках мира (русском, английском, немецком, французском и др.) количество различных наименований понятий достигает нескольких сотен миллионов. Большинство из них обозначаются словосочетаниями, смысл которых не сводим к смыслу составляющих их слов. Слова, входящие в состав словосочетаний, обозначают лишь некоторые признаки понятий, позволяющие отличать их друг от друга, но не исчерпывающих их содержания. Содержание понятий в полном объеме интерпретируется только в “душе” человека - в его внутреннем мире, где “все связано со всем”.

Парадигма— словоизменительная парадигма — в лингвистике список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения.

Семантика – У этого слова есть, как минимум, два значения: с одной стороны, этораздел лингвистики, занимающийся смысловой (содержательной) стороной языковых знаков; с другой стороны, это само смысловое содержание этих знаков (их означаемые). 

Семантическая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний.

Семантическое представление данных — формальная запись смысловой интерпретации информации, которая использует какую-либо модель семантического описания.

Семантико-синтаксический анализ текстов – выявление их концептуального (понятийного) состава и синтаксических отношений между понятиями.

Семантико-синтаксический синтез текстов – синтез текстов на основе их понятийного состава и информации о их синтаксической структуре.

Семиотика – теория знаковых систем. По мнению Ф. де Соссюра – одного из создателей современной науки лингвистики и науки семиотики - языковые знаки состоят из двух компонент: из означающего и означаемого[22]. Означающее - это звуковой или графический образ знака, а означаемое – соответствующее ему понятие.

Синтаксический анализ текстов – это по существу их семантико-синтаксический анализ, но на обобщенном уровне - когда слова текста заменяются символами их грамматических классов. При этом могут использоваться различные синтаксические модели: модель членов предложения (подлежащее, сказуемое, дополнение и др.), модель непосредственно составляющих (последовательное деление предложений на группы связанных по смыслу слов) модель дерева зависимостей (иерархическое дерево, в котором для каждого слова предложения указывается только одно подчиняющее его слово). Все эти модели ущербны, так как при их использовании разрушается понятийная структура текста (расщепляются на отдельные слова фразеологические словосочетания, обозначающие понятия).

Системы фразеологического машинного перевода текстов – это системы перевода, в которых большинство межъязыковых переводных соответствий между наименованиями понятий представлено в виде переводных соответствий между фразеологическими словосочетаниями. Проф. Г.Г. Белоногов считает, что ориентация на перевод значений отдельных слов никогда не позволит достигнуть высокого качества перевода. Это - тупиковый подход.

Словоизменение — образование словоформ той же лексемы, имеющих разные грамматические значения. Осуществляющие словоизменение морфемы называются флексиями.

Частными случаями словоизменения является склонение по падежам (рука-руки-руке…), спряжение по лицам (иду-идёшь-идёт…), изменение по родам, временам и другим грамматическим категориям. Множество словоформ одной лексемы образуют словоизменительную парадигму.

Словообразование — образование новых слов (дериватов) от однокорневых слов и возникшее в результате этого формально-семантическое соотношение между дериватом и его производящим словом. Например: профессор → профессорский, работа → работник.


Дата добавления: 2021-01-20; просмотров: 106; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!