Цифровые филологические исследования за рубежом.

Глава 1. Сходства и различия цифровых филологических исследований в России и за рубежом.

Цифровые филологические исследования в России.

Давайте начнем с определения филологии.

Доктор филологических наук Игорь Пильщиков предлагает такую трактовку: «Первоначально под филологией понималось историческое, лингвистическое и литературное изучение классической античности — древнегреческой и древнеримской культуры во всех ее аспектах. В этом значении термин «филология» сохранился и в современной англо-американской культуре, а также французской и других романских культурах.

Но в немецкой культуре в XIX веке выработалось представление о национальных филологиях, и методы, которые раньше применялись к изучению классической древности, стали применяться к изучению собственной культуры. Русская культура эту традицию позаимствовала у немцев». []

Что же тогда представляет собой цифровая филология?

На этот вопрос в интервью с Инной Ким отвечает профессор кафедры языкознания и литературоведения С. В. Рудакова: «Цифровая филология – наука интердисциплинарная. Это содружество гуманитаристики и компьютерных технологий.

Это и оцифровка текстов, архивов. Работа с большими базами данных, позволяющая глобально охватить мировую литературу. Это и изучение новых жанровых форм: мультимедийного лонгрида, интернет-поэзии, видео-поэзии, приемов визуализации текстов. Как цифровой формат воспринимают читатели? Как используют возможности мультимедиа современные поэты, писатели?» []

Мы умеем анализировать большие объемы данных, касающиеся астрономии, физики, биологии, генетики. А литература? Кандидат филологических наук, доцент факультета гуманитарных наук НИУ ВШЭ Борис Орехов считает, что «литература — сложный аспект, сложный объект, и, наверное, его тоже можно было бы как-то исследовать с использованием компьютеров, чтобы понять, что же там такое происходит, что это за сложные тенденции, которые не всегда очевидны нам как читателям». []

«Филологи ищут в произведении какие-то смыслы, их очень трудно переписать в число, сделать каким-то числовым параметром, а то, с чем может иметь дело компьютер, — это чаще всего какие-то атомарные факты, например слова. Слова подсчитать мы как будто бы можем, и, если мы возьмем какой-нибудь корпус художественных текстов, мы можем поискать те тенденции, которые есть в словах, которыми реализуются некоторые художественные смыслы в произведении». []

Филологические исследования литературы облегчает наличие различных электронных библиотек и Интернет-порталов.

В России первые работы по электронным библиотекам относят к середине 90-х гг. Основную роль в этих работах с самого начала играли энтузиасты-любители, что соответственно сопровождалось стихийностью и невысоким качеством. На тот момент не было никакой государственной поддержки в этой области и, как следствие, никакого развития. Попытка открытия российской целевой программы федерального уровня (1998 г.) не увенчалась успехом.

На этом фоне следует отметить положительную роль, которую играют Российский Фонд Фундаментальных исследований и Российский Гуманитарный Научный Фонд, поддерживающие в меру своих возможностей ряд проектов ЭБ. В начале 2000-х начинает расти число электронных библиотек, повышается их уровень, расширяются функциональные возможности этих библиотек, ведутся исследования, сведения о которых в течение нескольких лет сообщаются на Всероссийской конференции «Электронные библиотеки».

Самыми известными электронными библиотеками на данный момент являются:

1. Библиотека Максима Мошкова (www.lib.ru) - одна из первых и самых популярных русскоязычных электронных библиотек, она открылась в 1994 году. Авторы и читатели ежедневно пополняют библиотеку на добровольной основе.

2. Библиотека «Альдебаран» (aldebaran.ru) предлагает скачать книгу бесплатно в любом из удобных электронных форматов (epub, fb2, rtf, mobi, pdf), а перед этим шагом ознакомиться с её отрывком.

3. Весь Толстой в один клик (www.readingtolstoy.ru) - волонтёры из 49 стран мира создали электронную версию 90-томного собрания сочинений Толстого. Более 700 произведений от классика!

4. Фёдор Михайлович Достоевский (www.fedordostoevsky.ru) - энтузиаст Сергей Рублёв решил на одном сайте собрать всю информацию о писателе. Это не просто книги писателя, но и последние новости об экранизациях и телепостановках, исследования, а также список музеев и фотоархив.

5. Библиотека TarraNova (tarranova.lib.ru/about.htm) - просит называть себя не электронной библиотекой, а архивом. Руководство сайта говорит, что главное отличие – в том, что все тексты размещены официально, с согласия авторов. Однако TarraNova размещает не только авторские тексты, но и переводы (с фамилиями переводчиков).

6. Президентская библиотека им. Ельцина (prlib.ru/Lib/pages/collections.aspx) оцифровывает редкие книги из российских публичных библиотек и собирает их по тематическим коллекциям.

7. Артефакт (artefact.lib.ru/library) - в библиотеке более 8 тысяч текстов. Её преимущество в том, что книги здесь не только на русском, но и на 32 других языках мира.

8. Bookland.com (www.bookland.com/rus) - магазин электронных книг, который также предлагает коллекцию бесплатных произведений в удобных форматах на 18 языках.

В то же время одной из главных проблем электронных библиотек является качество представленной в них информации: в большинстве своем созданные системы не выдерживают критики. Основные недостатки: стихийность формирования информационных фондов, низкое качество и ненадежность предоставляемой информации, отсутствие необходимых сервисов для работы с информацией. В большинстве случаев невозможно установить, по какому источнику' воспроизводится текст; тексты изобилуют ошибками, содержат исковерканные формулы, имеются пропущенные фрагменты и т.п.

Одна из причин низкого качества представленной в электронных библиотеках информации в том, что в процессе их формирования на начальном этапе практически не принимали участие профессиональные ученые филологи. В основном, это были – энтузиасты - любители. Так, например, создатели крупных электронных библиотек Максим Мошков, Дмитрий Грибов, Владимир Никонов по профессии — программисты. Пользоваться большинством таких любительских электронных библиотек в научных и образовательных целях можно только избирательно, с установкой на то, что используемый текст необходимо будет сверять с текстом, напечатанным в авторитетном издательстве.

В России в настоящее время ведется активная работа по созданию сетевых информационных систем, которые могли бы удовлетворять потребностям филологов-специалистов. Один из наиболее значимых проектов — Фундаментальная электронная библиотека «Русская литература и фольклор» (feb-web.ru). В ней в электронном виде представлена текстовая, звуковая, изобразительная информация в области русской литературы XI—XX веков и русского фольклора, а также истории русской филологии и фольклористики. В описании библиотеки говорится: «ФЭБ представляет собой, во-первых, репозиторий текстов (источников, исследовательской и справочной литературы), а во-вторых, эффективный инструмент для их анализа. Электронная форма представления информации и современное программное обеспечение предоставляют исследователям и читателям - качественно новые, по сравнению с традиционными, средства работы с огромными информационными массивами».

С появлением электронных библиотек работа филологов была максимально упрощена. Теперь можно найти любую информацию в открытом доступе, не выходя из дома.

1. Большие возможности дает использование Национального корпуса русского языка (ruscorpora.ru). Это информационно-справочная система, основанная насобрании текстов на русском языке в электронной форме. Цель создания национального корпуса — представить русский язык XVIII — начала XXI века во всем многообразии жанров, стилей, территориальных и социальных вариантов и т.п.

2. Больших результатов достигли и системы машинного перевода. Программы-переводчики (Stylus, Promt и др.) в настоящее время успешно справляются с задачами, связанными с необходимостью быстро понять общий смысл документа на иностранном языке или проанализировать многоязычную информацию в Интернете. Поэтому филологи должны обращаться к этим фондам информации.

3. Предлагается знакомство с ресурсами, предназначенными для атрибуции литературных произведений: информационная система «Статистические методы анализа литературного текста» (http://smalt.karelia.ru/index.html);Лингвоанализатор(http://www.rusf.ru/books/ analysis/history.htm).

4. Важно знать о существовании компьютерных технологий обработки данных: программ анализа и лингвистической обработки текстов — Russian Morphological Dictionary' (программа для синтаксического и морфологического анализа русскоязычных текстов); программных продуктов фирмы LingSoft (компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков); программных продуктов АОТ (автоматической обработки текста): модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, система синтаксического и фрагментационного анализа для русского и немецкого языков, система первичного семантического анализа.

5. склонятель — программу для склонения наименований на русском языке; программу WordStat — утилиту подсчета частоты встречаемости различных слов в текстовых или html-файлах.

6. Филолог может пользоваться программами, осуществляющими машинный перевод. Это «Мультитран» (http://www.multitran.ru) — система автоматического перевода, поддерживающая русский, английский, немецкий, французский и испанский языки, предоставляющая возможности алфавитного, морфологического и фразового поиска; «Promt» — онлайн переводчик, интегрирующий возможности технологий Translation Memory и машинного перевода, поддерживает русский, английский, немецкий, французский, испанский и другие языки.

7. Следует знать и о существовании программ, обеспечивающих стилистический анализ, например, Fresh Еу'е — утилиты для выбраковки расположенных близко в тексте фонетически и морфологически сходных слов; «Ху'дломера» — программы, осуществляющая автоматическую классификацию функционального стиля текста на основе спектров длин слов и др.

8. Рассматриваются гипертекстовые системы: World Wide Web — гипертекстовая система, основанная на клиент-серверной архитектуре и работающая на Интернет, Hyper Wave — система управления документами Web в больших информационных пространствах; Microcosm — открытая гипермедиа система для разработки онлайновых учебников, справочников и документации; Storyspace — система, поддерживающая процесс написания гипертекстовых произведений («писательская среда»); WebThing — объектно-ориентированная гипертекстовая система, спроектированная для совместной авторской работы. Все программы снабжены инструкциями по их использованию.

 

Цифровые филологические исследования за рубежом.

Словосочетание "электронная библиотека" (ЭБ) за последние десять лет становится все более популярным и повсеместно употребляемым. Это имеет отношение не только к России, но и ко многим другим странам, широко использующим информационные технологии. Неуклонно растет число систем от предельно простых до весьма сложных, в названии которых присутствует упомянутое словосочетание. Ведутся научные исследования и опытные разработки, создаются разнообразные электронные библиотеки, открытые для широкого сетевого доступа пользователей. Спектр участников этих работ весьма широк: от отдельных энтузиастов до объединений университетов, исследовательских центров и крупных фирм. Во многих странах были открыты соответствующие национальные программы (США, Германия, Япония и др.), бюджет каждой из которых колеблется от десятков до сотен млн. долларов.

Не все русскоязычные ЭБ организуются в России. Около 40 из них ведутся за рубежом, в том числе в Украине – 14, в США – 7, в Белоруссии – 5. Среди этих ЭБ есть весьма популярные, например «Электронная библиотека Александра Белоусенко» (США, http://www.belousenko.com/), «Im Werden» (Германия, http://imwerden.de/), «Литбиблиотека Бориса Бердичевского» (Израиль, http://www.borisba.com/litlib/index.html).

Не менее половины из указанного числа библиотек создаются отдельными лицами или группами энтузиастов. Этим ЭБ свойственны стихийность и субъективность формирования, невысокое качество, ненадежность. К числу таких библиотек следует добавить и целый ряд систем, которые хотя и представляют какие-то организации и учреждения, фактически ведутся на энтузиазме со всеми вытекающими последствиями.

Важным параметром оценки любой ЭБ является качество представления информации. В целом анализ показывает здесь неутешительную картину. Значительное число ЭБ содержат полураспознанные тексты с большим числом ошибок, многие текстыискажены, отсутствуют описания воспроизводимых произведений и т.д. В 20% библиотек качество информации не выдерживает никакой критики. Системный отбор информации ведется не более чем в 30% библиотек.

Сходную общую оценку можно дать и по качеству обслуживания в ЭБ, в частности, по предоставляемым пользователям функциональным возможностям. Многие ЭБ не имеют системы навигации, невозможно узнать, что содержится в этих библиотеках. Далеко не всегда имеются даже элементарные указатели авторов и произведений. Впрочем, даже когда они есть, проку от них бывает мало. Например, в одной из библиотек в указателе произведений, сгруппированных по авторам, имя писателя Антуана де Сент- Экзюпери встречается четырежды на разные буквы (на «А» – Антуана де Сент-Экзюпери, на «Д» – де Сент-Экзюпери, на «С» – Сент-Экзюпери и на «Э» – Экзюпери) и под каждым вариантом имени стоят разные произведения. Подавляющее большинство библиотек не имеют полнотекстового поиска.

Даже этот предельно краткий обзор показывает серьезные проблемы в области ЭБ. Прежде всего, в настоящее время отсутствует ясное понимание того, что такое электронная библиотека, какие информационные системы следует относить к данному классу, каковы требования и критерии оценок, предъявляемые к ним. Необходимость рассмотрения понятия "электронная библиотека" обусловлена несколькими причинами:

– отсутствием обоснованного и общепринятого определения;

– широким употреблением этого понятия в научной, технической и популярной литературе;

– наделение этого понятия разными авторами различными, иногда противоречивыми значениями.

Совершенно очевидно, что для эффективного исследования, проектирования и эксплуатации некоторого класса систем, он, этот класс, должен быть более или менее точно определен.

Впервые понятие "электронная библиотека" появилось в зарубежных публикациях в середине 80-х гг. С тех пор было несколько десятков определений, двенадцать из которых рассмотрены в [1]. Учитывая накопленный опыт, в указанной работе используется в качестве основного определение, ранее предложенное в [2].

 


Дата добавления: 2021-02-10; просмотров: 74; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!