Основные направления развития сети Интернет



Сеть стремительно развивается, ежедневно увеличивается объем инфо. Специалисты отмечают следующие тенденции в развитии сети:

· Упрощение процедуры подключения к сети – появление новых средств и способов упрощённого доступа к сети (через сотовые телефоны 2013- 1,7млар., телевизоры)

· Постоянное повышение скорости доступа к сети; появление высокоскоростных устройств (модемы, маршрутизаторы; появление высокоскоростных каналов связи – оптоволоконные, электропровода; внедрение беспроводных сетевых технологий – WiFi, WiMax) Многие эксперты утверждают, что беспроводной доступ  постепенно вытеснит проводной Интернет.

· Увеличивается количество IP адресов. Мы говорили, что протокол TCP/IP, который используете в Нет – версия, по которой IP адрес –это 4 байтовое двоичное число, мах количество адресов = 4,3 млрд. Введена 6 версия протокола, которая поддерживает не 4, а 16 байтовое число, т.е. 128 разрядный IP адрес 1039..

· Предоставление пользователям все более широких возможностей (Интернет – телефония, интерактивное теле радио вещание, электронная торговля, совершенствование поисковых инструментов)

· Создание мети Интернет 2 (Web 2)/ Целью создания является – создание высокосортной сети и разработка приложений для нее. Проект Интернет 2 – проект по созданию сети нового поколения, призванный избавить от недостатков, присущих современному Интернету. Проект финансировался правительством США, разрабатывался с 1992 (США, Россия..) Главное достоинство высокая скорость передачи данных (до 10ГБ в сек).Сеть строится на базе транспортного протокола IP 6 (128 разрядный адрес), что позволит подключить к сети не только ПК, но и все мобильные телефоны, телевизоры…По этой сети можно почти беспрепятственно передавать потоковую аудио и видео инфо,. сеть обеспечивает более надежную защиту инфо. Пользователям Web 2 будет есть доступ к 1, а наоборот нет.

Идет постепенное слияние технологий любых информационных сет ей - компьютерных, телефонных, телевизионных. Получаемая обществом инфо по комп. сетям к середине 21 в. Сравняется с объемом инфо, получаемой по традиционным каналам СМИ (радио, телевидение, печать), а к концу столетия компьютерные сети должны стать основной информационной средой, Интернет станет основным средством связи.


Тема VI . Современные информационные технологии в обработке текстов .

Система автоматического чтения текста

 

Для быстрого и качественного вода текстовой информации в ПК   широко используется сканер. Сканер работает по принципу фотоаппарата, позволяя ПК «увидеть» текст. Для того, чтобы преобразовать графическое изображение в текстовую форму необходимы системы автоматического чтения текста или система оптического распознавания символов (OCR - Optical Character Recognition)

Система автоматического чтения текста - компьютерная программа, позволяющая преобразовать текст бумажного носителя в электронный текстовый файл.

История появления современных программ в области распознавания начинается с конца 40-ых г., когда ученые многих стран стали работать над идеей обучению ПК умению решать разные интеллектуальные задачи. Автоматическое чтение текста, распознавание речи, решение шахматных задач, и даже сочинение музыки и стихотворений – вот далеко не полный перечень идей, которые выдвигались и начали разрабатываться в то время. К концу 50-ых эти идеи оформились в отдельную область знаний – искусственный интеллект. Одной из задач, которая вскоре выделилась в отдельное направление и была задача – распознавания образов. Любая компьютерная система распознавания должна уметь формировать, анализировать и интерпретировать любое изображение, в том числе и символьные тексты. (В метро, вокзалы видеокамеры)

 

Система OCR - это частная задача машинного зрения. К этому классу задач также относятся и задачи распознавания образов, объектов (распознавание фальшивых денег, идентификация человека)

Принципы работы OCR системы:

Целостность - объект описывается как целое с помощью значимых элементов и отношений между ними.

Целенаправленность - распознавание строится как процесс выдвижения и целенаправленной проверки гипотез

Адаптивность - способность компьютерной системы к самообучению

Сегодня широко известны следующиеOCR системы

1. Fine Reader

2. CuneiForm

Этапы работы :

1. Сканирование - получение графического образа документа

2. Распознавание:

а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)

б) распознавание каждого символа на основе различных алгоритмов распознавания

3. Проверка орфографии

4. Сохранение

Алгоритмы распознавания (классификаторы)

·  Шаблонные - растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.

·  Признаковые - позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть информации. (Это слабое звено). ). Оперирует определенными чи­словыми признаками, такими, например, как длина периметра, количество черных точек в разных областях или вдоль различ­ных направлений/ При этом распо­знавание символов основывается на идентификации их универ­сальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны незави­симо от их шрифта. Например: символ «а» может быть представ­лен как состоящий из окружности в центре снизу, прямой ли­нии справа и дуги окружности сверху в центре (

· Структурные - содержат информацию не о точечном изображении символа, а о правилах начертания (или структуре). Структурными элементами являются составляющие символ линии. Пр. Р – вертикальный отрезок и дуга. Работают с векторными изображениями. Недостаток - чувствительность к дефектам изображения, достоинство - обучать новым шрифтам не нужно

· Структурно-пятненый эталон - совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.

 В Fine Reader работают все 4 типа алгоритмов.  А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Шаблонные классификаторы применяются для распознавания лишь печатных символов, в то время как структурные для рукописных, имеющих естественно гораздо больше вариантов начертания.

 

Возможности системы OCR:

· во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, выделяя в ней иллюстрации, таблицы и текст, распознает символы текста, проверяет орфографию и показывают результат в текстовом редакторе.

· позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств (КПК, планшеты)

· способны самообучаться и распознавать плохо пропечатанные символы незнакомых языков

· хорошо распознают тексты с графикой, подписями, логотипами; таблицы; тексты, напечатанные на цветном фоне(гербовом), чертежи;

· поддерживают публикацию документов в глобальной сети;

· позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата;

· точность распознования документов хорошего качества достигает 97-99 %

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества (рукописного), выделение текстовой инфо на фоне шумов (номерных знаков автомобилей), а также интеграции OCR систем с различными программами обработки информации (СМП, реферирования и аннотироания текстов, электронными архивами).

 

2. Автоматического аннотирования и реферирования текста

План

1) Аннотация и реферат текста. Общие понятия.

2) Методы автоматического аннотирования и реферирования

3) Составление реферата (аннотации) текста компьютером на основе статистического метода.

 

Реферат - связный текст, который кратко выражает не только центральную тему, но и цель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация - краткое изложение содержания документа, дающее общее представление о его теме.

Рефераты и аннотации - вторичные документы, которые составляют к научно-техническим документам, книгам, статьям, патентам на изобретения

. Ежедневно появляется большое число публикаций по самым разным проблемам науки и техники, и специалисты не успевают следить за новейшей литературой по своей области знаний. Как установлено, человек должен читать ежедневно на разных языках 1500 стр. текста, сто не возможно. Поэтому для оперативного “поверхностного” знакомства с новейшими публикациями используются рефераты и аннотации, которые составляются в специальных организациях и публикуются в реферативных журналах.

Реферирование и аннотирование текста являются довольно сложными и трудоемкими видами интеллектуальной деятельности. Занимает много времени, что приводит к повторению в разных странах тех же исследований, более позднему применению новейших методик, технологий. Чтобы это избежать для составления аннотаций и рефератов применяются ПК.

 Они помогают человеку ориентироваться в информационных потоках.

Составление аннотации и реферата текста с помощью ПК называют автоматическим аннотированием  и реферированием

Система автоматического аннотирования и реферирования текста - система, имитирующая действия человека, создающего реферат.

Работа по автоматическомуаннотированию и реферированию ведутся с конца 50-ых. Первый машинный реферат был получен американцем Генри Луном в 1958 г.

Машинный реферат представляет собой последовательность предложений исходного текста, либо таблицу, в ячейках которой располагаются ключевые слова или словосочетания.

 

Этапы построения реферата человеком:

1) Подготовительный этап (референт определяет  тематическую направленность текста и пытается понять и осмыслить документ в целом)

2) Аналитический этап (референт выделяет основные смысловые единицы фрагментов текста, составляет план будущего реферата)

3) Этап непосредственного построения реферата (выделенные ранее  смысловые единицы располагаются в единый вторичный текст в соответствии с планом реферата)

 

Основные смысловые единицы

ключевые слова - термины, относящиеся к содержанию текста и повторяющиеся несколько раз с учётом всех синонимов.

Ключевое словосочетание - сочетание слов, среди которых есть одно или несколько ключевых слов.

Ключевое предложение - предложение, содержащее 2 и более ключевых слова или ключевых словосочетания

 

В качестве смысловых единиц реферата могут быть:

1) Полное (без изменения ключевое предложение исходного текста)

2) Перефразированное ключевое предложение исх. текста

3) Предложение, составленное из кл. слов или словосочетаний с помощью специальных связующих элементов

4) Предложения, обобщающие несколько предложений исходного текста

 

Смысловые единицы аннотации

1. Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами типа: “В статье рассматриваются сл. вопросы”

2. Специальные предложения исходного текста, содержащие оценочные элементы типа: ”Статья посвящена актуальной теме”

3. Специальные предложения исходного текста, содержащие клише, т.е. специализированные словесные штампы, фиксирующие внимание на определенных аспектах содержания: «Недостаток заключается”, “Цель публикации”…

ПК должен уметь:

1) Находить   в тексте ключевые слова, словосочетания и предложения

2) Находить   в тексте менее значимые единицы

3) Составлять из текстовых единиц смысловые единицы реферата или аннотации

4) Составлять из таких единиц текст реферата

Смысловые единицы ключевые слова, словосочетания используются компьютером для построения табличных рефератов (Интернет)

Основные методы автоматического реферирования текстов:

1. Статистический

2. Позиционный

3. Логико-семантический

1. В статистическом методе ключевое слово – это знаменательное слово текста, которое с учётом всех  синонимов встретилось в тексте наибольшее число раз. Ключевое предложение – это предложение текста, которое: имеет несколько ключевых слов и содержит ключевые слова на небольшом расстоянии друг от друга.

Итак, сформулируем задачу:

Используя для выделения ключевых слов текста, один из вариантов статистического метода, а именно Кваж. = F*m / N*n, где

F - частота употребления слова в тексте;

m - число абзацев, в которых встретилось слово;

N-число слов в тексте;

п - число абзацев в тексте

составить алгоритм, позволяющий получить:

a) аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста. Ключевым словосочетанием считается – ключевое имя  существительное со стоящим перед ним определением, выраженным прилагательным или причастием;

b) -словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым предложением текста будет считаться  предложение, содержащее три и более разных ключевых слова.

Словоупотребление - это цепочка символов, заключенных между двумя знаками пробелов.

Словоупотребление, находящееся вне текста (предложения) является словоформой.

Несколько словоформ, имеющие одинаково лексическое значение образуют слово (лексему). Цепочка словоупотреблений между двумя знаками конца предложения - предложение.

Скоро придет весна. Весной легче дышится. Приходи весна!

Алгоритм решения задачи:

I. ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

II. Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

III. Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a. Удаляется служебная и общеупотребительная лексика;

b. Объединяются грамматические формы одного и того же слова;

c. Объединяются синонимы;

d. Удаляются слова, которые встретились только в одном абзаце;

IV. Словарь потенциальных опорных слов делится (с помощью Кважн) на:

a.  словарь главных опорных слов;

b. словарь второстепенных опорных слов;

V. Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и предшествующего ему  определения.

VI. Строится реферат на базе главных и второстепенных опорных слов. Просматривая исходный текст ПК извлекает из него предложения, содержащие 3 разных опорных слова и составляет из них реферат.

 

Позиционный метод

Основным критерием этого метода является место или позиция предложения в исходном тексте. Выделяют два позиционных метода:

2. Метод заглавия – считается, что основное содержание текста выражается текстом заголовка. Поэтому составляется словарь ключевых слов на основе знаменательных слов заголовка. Метод работает в 30-40%

2. Метод локализации (местонахождения) работает на текстах узкой тематики (патенты на изобретения) – идея метода в том, что в таких текстах предложения о цели и результатах занимают фиксированное место. ПР. 1-2 предложение 2-ого абзаца. Метод работает в 25-55%

Эти методы используются комплексно и дают совместный результат 75%.

Логико-семантический метод

3. Логико-семантический метод опирается на исследование структуры и семантики текста. Цель: выделить предложения с наибольшим функциональным методом, на величину которого влияют различные факторы (связь с левым и правым окружением, наличие в предложении семантически значимых слов, выделение текста шрифтом и т.д.).

1-ый результат по этому методу был получен в середине 70-ых в США

По данному методу был создан словарь ключевых слов, где каждому слову приписан семантический код или признак. ( положительные – гипотеза, цель, отрицательные - тем не менее, однако…)

 Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, они основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы нового направления, основанные  на выделении из текстов наиболее информативной информации и создании с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео. Примером является (SUSY – SUmmarizing System)


3. СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

Перевод - это вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность.

Переводом текстов человек начал заниматься еще в античном мире, более 20 веков назад. Одним из первых основные принципы перевода сформулировал Цецерон (100 г. до н.э.), который считал, что следует переводить не слова, а мысли. С годами взгляды менялись, но с появлением ЭВМ, задумались над тем, как можно использовать ПК в переводе текста.

 Типы перевода по степени автоматизации:

I Традиционный (ручной) перевод, выполняемый человеком

II Автоматизированный перевод:

1. - перевод, выполняемый компьютером с помощью человека. Компьютер делает перевод, а за справками обращается к человеку

2. - перевод, выполняемый человеком с помощью компьютера - в памяти ПК двуязычный словарь и текстовый процессор.

3. система ТМ (Translation Memory).Эти программные продукты называют автоматизированным рабочим местом переводчика. В основе этих программ лежит принцип сбора и хранения фрагментов, переведенных человеком текстов на двух языках. Хранятся в специальном носителе переводов (памяти) и служат бесценным подспорьем при последующем выполнении переводов этой же тематики. Для каждой тематики создается новый накопитель, ими можно обмениваться. Самая популярная программа -Trados.

III Машинный (автоматический) перевод МТ ( Machine Translation )

Машинный перевод - это выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другой естественный язык при сохранении эквивалентности содержания.

Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, => идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.

Реально автоматический перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике).

Виды машинного перевода

· информативный - грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста

· профессиональный - качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным

· персональный (авторский) - где авторы подлежащих переводу текстов заранее избавляют их от неоднозначности и работают в режиме диалога с компьютером

 

На сегодняшний день машинный перевод представлен 2 технологиями.

Типы систем МП:

1) Машинный перевод, основанный на правилах языка (модель перевода человеком) Rule - based ( RBMT )

2) Статистический машинный перевод (STM ). Он основан на сопоставлении параллельных текстов больших объемов и вычисления наиболее вероятного перевода.

Подробнее остановимся на 1-ой технологии

Структура системного машинного перевода RBMT и назначение ее основных блоков

Системы МП (машинного перевода) являются моделями, которые воспроизводят на ПК речевое поведение человека, переводящего текст с одного языка на другой язык.

Синтаксические соответствия

1. В процессе морфемного анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков (часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари;.

2. Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.

3. Синтаксический синтез переводного языка заключается:

a. в создании предложения переводного языка определенной синтаксической структуры, определяемой правилами исходного и переводного языка

b. в замене слов исходного языка на их переводные эквиваленты

4. Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужном числе, форме, роде, падеже, основываясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.

 

 Успех СМП зависит от автоматических словарей. Для всех слов, входящих в словарь в закодированном виде указываются грамматические признаки и лексико-семантическая информация.

Используются два типа представления лексических единиц в автоматическом словаре:

а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами

б) в виде квазиосновы (блок #...001) - числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слова. Эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями.

выбор типа лексической единицы зависит :

· от типа языка (для русского, немецкого, белорусского - квазиоснова, для английского, французского - словоформа)

§ от объема словаря

· от типа системы машинного перевода, для информативного перевода - квазиоснова, для профессионального - словоформа

В словарной статье выделяют четыре зоны:

1) зона морфологических сведений

2) зона семантических сведений

a) - принадлежность к определенному семантическому подклассу

b) переводные эквиваленты

3) зона синтаксических сведений

a)  (управление глагола или предлога)

4)  зона лексических сведений

a) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому- то языку)

b) использование лексической единицы как части фразеологизма

016МИКРОСХЕМ*N_2_2_________6004

 

Системы первой технологии Rule - based опираются на готовые словари, для их разработки нужно много времени, а также для настройки системы для каждой тематики перевода:

1. Подключение специализированных словарей;

2. Добавление незнакомых слов в пользовательский словарь;

3. Резервирование собственных имён;

4. Подключение баз ТМ;

5. Выбор подходящего вариативного перевода для многозначных слов и редактирование перевода.

Использование программ этой технологии даёт выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений.

Преимущества систем первой технологии:

· Синтаксическая и морфологическая точность;

· Стабильность и предсказуемость результатов;

· Возможность настройки на предметную область.

Недостатки:

· Трудоёмкость и длительность разработки;

· Необходимость пополнения словарей;

· «Машинный» акцент.


Дата добавления: 2018-10-26; просмотров: 427; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!