Роль електронного словника для редагування текстів



Комп’ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа. Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер „1” присвоюють найбільш частому слову) до R, то добуток порядкового номера (рангу, r) будь-якого слова списку на його частоту появи в тексті (1) буде майже сталою величиною (с):

 

f∙r = c


На практиці це означає, що, коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п’ять тисяч - лише 85% і т.д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини - решту, лише четверту частину.

Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп’ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналів, включають також персоналії (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник.

Комп’ютерні словники, які використовують для редагування текстів, класифікують:

за типом лексичних одиниць - словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;

за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) - словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп’ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп’ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

 

Методи реконструкції

Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

для запису правильного (нормованого) слова;

для запису довжини слова в знаках;

для запису алфавіту від „а” до „я”;

для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:

поле 1: структура

поле 2: 9

поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я

поле 4: 112122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника часто вживаних слів. Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

Інтегрована лексикографічна система.

„Словники України"

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД

Інтегрована лексикографічна система

Словники України

Передмова.

Інтегрована лексикографічна система "Словники України" призначена для надання користувачам лексикографічної інформації. Вона складається з п'яти словникових підсистем-модулів - парадигматичної, транскрипції, фразеології, синонімічної та антонімічної.

Реєстр.

Основу генерального реєстру системи "Словники України" складає реєстр Орфографічного Словника української мови, 2-е видання (К.: Довіра, 1999), який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр включає понад 150 тис. слів.

Парадигма.

Парадигматичний модуль створено на основі розробленої в Українському мовно-інформаційному фонді НАН України словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками близько 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації - близько 3000 класів. Завдяки вказаній класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для усіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію усіх словоформ в усіх граматичних значеннях. Повне число словоформ для понад 150 тис. одиниць реєстру є порядку 3 млн. У модулі "Парадигма" користувач, вибравши в реєстрі будь - яке слово, автоматично одержує в правому вікні екранну таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їх граматичних параметрів.

Транскрипція.

Модуль "Транскрипція" забезпечує автоматизоване виведення за допомогою транскрипційних знаків інформації про артикуляцію лексичних одиниць реєстру згідно із сучасною літературною вимовою звуків. В основу модуля покладено інформацію, що міститься в Орфоепічному словнику української мови, перший том якого вийшов у серії "Словники України" (К.: "Довіра", 2001). Його реєстр тут значно розширено за рахунок слів, які пишуться через дефіс, словосполучень тощо.

Фразеологія.

Фразеологічний модуль містить близько 56 тис. фразеологічних одиниць, які вживаються у сучасному українському мовленні. Фразеологізми є основою національного обличчя кожної мови; в них, як ні в якій жодній одиниці, яскраво виявляється специфічний національний колорит, особливості образного народного мислення, власне національне сприйняття "мовної картини світу", віддзеркалення характерних особливостей культури і побуту, народних звичаїв, символіки, історичного минулого. Фразеологічний модуль з достатньою повнотою передає фразеологічне багатство української мови на матеріалі літературної мови XIX-XX століть. Основою фразеологічного модуля послужили "Фразеологічний словник української мови" у 2-х книгах (К.: Наукова думка, 1993 та друге видання - 1999 рік), а також підготовлений до друку в серії "Словники України" новий "Фразеологічний словник української мови", де найповніше відображено загальновживану фразеологію української мови і дано всебічну лексикографічну характеристику фразеологізмів.

Синонімія.

Модуль синонімії з достатньою повнотою подає синонімічне багатство української мови (на матеріалах літературної мови ХІХ-ХХ ст. та народнорозмовної лексики). Модуль синонімії створено на основі "Словника синонімів української мови" у 2-х томах, який було випущено в серії "Словники України", (К.:, Наукова думка, 1999-2000 рр). Модуль словника містить синонімічні ряди (близько 9200), що складаються зі слів або їхніх окремих значень, а також сталих словосполучень (номінативних та граматичних). Ядром кожного синонімічного ряду є його домінанта - лексична одиниця, що має найзагальніші для цього ряду семантичні особливості. У словниковій статті вона є реєстровим словом. Члени синонімічних рядів супроводжуються семантичними, граматичними та стилістичними характеристиками. Уживання синонімів ілюструється типовими для них контекстами - цитатним матеріалом із художньої, публіцистичної, наукової та ін. літератури й словосполученнями.

Антонімія.

Основна частина модуля - словник антонiмiв, в якому подано понад 250 словникових статей. За змістом він відповідає Словникові антонімів української мови, який вийшов в серії "Словники України" у 1999 р. Загалом у модулі антонімів представлено понад 2200 компонентiв антонiмiчних пар, якi є у всiх частинах словникових статей.

Робота з системою.

Доступ користувача до кожного з модулів інтегрованої лексикографічної системи "СЛОВНИКИ УКРАЇНИ" забезпечується інтерфейсною програмою. У лівому вікні інтерфейсної програми знаходиться українська абетка, а також частина реєстру словника, що починається з вибраної літери. У правому вікні - інформація, яка відповідає вибраному реєстровому слову словника, з яким працює користувач. Вибір необхідної лексикографічної функції (словника) здійснюється кнопками "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія", розміщеними на верхній панелі програми. При натисканні на кнопки "Фразеологія", "Синонімія" або "Антонімія" у правому від реєстра стовпчику з'являються літери "Ф", "С" або "А", відповідно, біля реєстрових одиниць, наявних у складі певних фразеологізмів, синонімічних або антонімічних рядів.

Дружній програмний інтерфейс системи дозволяє користувачеві:

Вільно переходити від одного словника до іншого.

Переглядати зміст вибраного словника.

Проводити пошук слова у кожному з словників.

Для перегляду слів у словниках слід:

"Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Вибрати літеру, з якої починається слово у лівій панелі інтерфейсної програми.

Використовуючи смуги прокрутки, можна переглядати слова на вибрану літеру

Для пошуку слів у словниках необхідно:

Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Ввести необхідне слово у стрічці вводу.

Натиснути мишкою кнопку "Пошук".

У системі проведено досить глибоку індексацію текстів словникових статей, що містяться в модулях "Фразеологія", "Синонімія", "Антонімія". Регулярно не індексувалися лише невідмінювані неповнозначні частини мови, оказіоналізми, деякі діалектизми та рідковживані слова, деякі власні назви тощо. При індексуванні автори намагалися якомога повніше і глибше забезпечити зняття омонімії, у тому числі граматичної, що зроблено уперше в україномовних автоматизованих системах опрацювання мови. Завдяки проведеній індексації значно полегшується пошук інформації про лексичні одиниці. Так, подвійне натискання мишкою на будь-яке слово у правому (інформаційному) вікні програми забезпечує вибір його основної форми та автоматичний перехід до цього слова у реєстрі.

Фразеологія.

гратися в кота і мишку

гратися в кота і мишку (рідше мишу) несхв., жарт. Бути нещирим, хитрувати, лицемірити і т. ін. Не придурюйся, Остапе, ми з тобою люди дорослі, і не годиться нам гратися в кота і мишку (М.Ю. Тарновський). гратися в кота-мишки. - І що ми вигадаємо? І далё гратимемося в кота-мишки? Адже коли-небудь змушені будемо розрубати цей гордіїв вузол! (В. Малик).

мов кіт до сала

як (мов, ніби і т. ін) кіт до сала, зі сл. допастися і под. Жадібно, дуже енергійно. Допавсь, як кіт до сала (Укр. присл).

Завдання

Що таке галузі редагування і аспекти редагування?

Який контроль над текстом можна здійснювати за допомогою комп’ютера?

Яка роль комп’ютерних словників у редагуванні тексту?


Дата добавления: 2019-07-15; просмотров: 193; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!