КОМПЬЮТЕРНАЯ (ЭЛЕКТРОННАЯ) ЛЕКСИКОГРАФИЯ Сарыгул К.

Турецкий университет “Манас”


Номер: 4-2
Год: 2016
Страницы: 191-196
Журнал: Актуальные проблемы гуманитарных и естественных наук

Ключевые слова

компьютерная технология, лингвистика, электронная лексикография, компьютер, dictionary, lexicography, electronic dictionaries, programming

Просмотр статьи

⛔️ (обновите страницу, если статья не отобразилась)

Аннотация к статье

В данной статье рассматриваются статус и проблемы изучения электронной лексикографии и ее вклад в развитие современного языкознания.

Текст научной статьи

Передовую позицию в области изучения проблем компьютерной лингвистики занимают такие страны, как США, Великобритания, Россия, Франция и Скандинавия, достигшие определенных результатов в данном направлении. Научный интерес к компьютерной лингвистике приходится на 1955-65 годы, когда были сделаны первые шаги к машинным или компьютерным переводам. Несмотря на старания лингвистов того времени, переводы с помощью компьютера не отвечали требованиям, вследствие чего проекты в данном направлении потеряли свою актуальность. Технологии, разработанные в области компьютерной лингвистики, начали использовать в литературе для определения стиля с помощью автоматизированной грамматики, разработанной для поиска языковых средств и выявления частот их употребления [Britannica]. Данное направление имеет устойчивый характер развития и нацелено на совершенствование вышеупомянутой программы. Автоматизация операций, связанных с лингвистикой, имела особый успех в области лексикографии. Подобная тенденция объясняется трудоемкостью лексикографической работы, которая занимает как минимум десяток лет человеческой жизни, начиная с составления, заканчивая изданием словаря. Именно поэтому разработаны компьютерные программы по составлению объемных словарей, благодаря этим программам появились частотные и обратные словари. Направление, изучающее проблемы реализации задач лексикографии с помощью электронных устройств, называлось по- разному: электронная лингвистика, инженерная лингвистика, алгоритмная лингвистика и др. Несмотря на наличие таких разных вариантов, Ю.Н. Марчук назвал данное направление «Компьютерной лингвистикой». А сумма компьютерной лингвистики и лексикографии дает нам компьютерную лексикографию, становление которой основано на базисных законах классической лексикографии. Именно поэтому компьютерная лексикография определяется как «отрасль лексикографии, в которой рассматриваются теоретические и практические вопросы, связанные с компьютерными словарями». Теоретические задачи компьютерной лингвистики изучаются в течение многих лет, и в 1980 году основывается Ассоциация компьютерной лингвистики (The Association for Computational Linguistics) как научно-профессиональное общество международного значения. На современную лексикографию большое влияние оказывают новые методы обработки информации, которые, в свою очередь, стали условием появления словарей совершенно новых типов. Компьютерная лексикография как современная информационная технология имеет широкий спектр возможностей, благодаря которым реализуются интеллектуальные операции, связанные с лексикографической практикой. С появлением информационных технологий в области лексикографии научная деятельность лексикографов приобретает совершенно иной характер. Компьютерная лексикография представляет собой совокупность программных средств и методов, направленных на разработку словарей электронного вида. В свою очередь электронный словарь является компьютерной информационной базой, содержащей словарный фонд особым кодированным образом, что дает возможность моментально находить запрашиваемые языковые средства, включая грамматические формы и категории. При этом можно изменить направление перевода (скажем, с английского на русский или с русского на английский) и воспользоваться услугой компьютерного перевода с нужного нам языка. При составлении электронного словаря учитываются все особенности, включаемых в словарь слов для точного определения компьютером при поисковом запросе каждого слова. Поэтому электронные словари не ограничиваются такими операциями, как перевод и толкование, но и являются информационными базами для комбинаций на уровне предложений и текстов. Компьютерная лексикография набирает интенсивный темп развития и в настоящее время имеет следующие основные направления: составление разного рода словарей на основе определенных текстов с помощью компьютерных программ; теоретические и практические аспекты составления компьютерных словарей по системе NLP (Natural Language Processing); составление электронных версий книжных словарей; с помощью специальных программ можно составлять текстовые словари, и не исключается участие электронной лексикографии в процессе разработки подобного типа программ и текстовых словарей. Например, загрузив в электронные средства текст эпоса «Манас» или, скажем, текст любого произведения Ч. Айтматова, мы будем иметь возможность работать над этими текстами. Какие функции выполняют текстовые программы? * Вычисляет статистику количества слов в тексте. * Определяет частоту употребления каждого слова в тексте. * Выявляет заимствованные слова в тексте и показывает их количество. * Определяет частоту гласных и согласных звуков. * Составляет индексы слов в тексте. * Информирует о буквах наиболее часто встречающихся в составе письменного текста. В рамках вышеназванных пунктов можно разработать образец специальной клавиатуры для кыргызского языка. Из-за отсутствия клавиатуры с кыргызским алфавитом для набора в компьютере текстов на кыргызском языке используется клавиатура с буквами русского алфавита, что, естественно, создает определенные неудобства при печатании текстов. Это объясняется несовпадением частот букв в текстах кыргызского и русского языков. Для решения данной проблемы необходимо определить часто употребляемые буквы в кыргызском языке и в зависимости от частоты их употребления установить на клавиатуру. Система процесса естественного языка (система NLP) и искусственный интеллект (Artificial Intelligence) подчиняются законам лингвистики. Несмотря на это, искусственный интеллект становится самодостаточным, самостоятельным направлением в силу интенсивного роста информационных технологий и их широких возможностей. Основная функция обработки естественного языка (Natural Language Processing) заключается в анализе, понимании, комментировании конкретного языка в целях программирования определенных операций. Данная обработка тесно связана с законами искусственного интеллекта (презентация информации, планирование, мышление и др.), теорией формальных языков (анализ языка) и с такими направлениями, как теоретическая лингвистика, компьютерная лингвистика, когнитивная психология, передовые технологии и методы которых концентрируются при обработке естественного языка. Обработка естественного языка как направление искусственного интеллекта появляется в 1950-60 годы. Она изучает проблемы компьютерного анализа и синтеза естественных наук. Применительно к искусственному интеллекту анализ есть понимание языка. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека. Следует отметить следующие исследовательские направления в области обработки естественного языка: ясное понимание функции и семантики естественных языков; в процессе взаимодействия компьютера и человека пользование естественным языком и облегчение коммуникации между компьютером и человеком; осуществление языковых переводов с помощью компьютера. В ряде стран, таких как Япония, Великобритания, США, Германия, Голландия, Франция и др., программы, включающие вышеперечисленные технологии, предназначены для широких масс. В сфере науки и бизнеса пользование подобными технологиями осуществляется, в основном, посредством английского языка. Введение в функцию кыргызского языка таких технологий требует больших усилий. Так как правила и алгоритмы, используемые для английского языка, трудно адаптировать к кыргызскому языку. Это, в первую очередь, связано с типологическими особенностями двух языков, более того, уникальностью каждого языка в целом. Решение данной задачи требует вмешательств как высококвалифицированных специалистов в области кыргызского языкознания, так и программистов высшей категории. Основные разделы обработки естественного языка (Natural Language Processing): направление от текста к речи; говорение и восприятие; создание естественного языка; машинный перевод; вопросы-ответы; исправление информации; производство информации; эксперимент текста; технология перевода; автоматическое группирование[3]. Каждому из вышеперечисленных разделов необходимы качественно составленные словари, т.е. базы, содержащие формальную, семантическую, а также функциональную информацию о языковых ресурсах определенного языка. В системе NLP часто используется язык “пролог”. Из системных языков, использующих логические программы, следует особо отметить язык, который именуется «прологом». Он имеет следующие особенности: автоматический перевод с одного языка на другой; составление естественно-языковых интерфейсов для работающих программ; проектирование динамических, релятивированных информационных баз; экспертные системы и частицы экспертных систем[3]. Самое распространенное действие электронной лексикографии - создание электронной формы традиционного словаря. Потому что здесь не стоит задача составления нового словаря, а создается другая (электронная) форма уже имеющегося под рукой материала. Важно отметить продуктивность применения электронных словарей, которая выражается в экономии времени, оперативности при поиске нужных слов и т.д. В пределах компьютерной лексикографии разрабатываются компьютерные технологии, с помощью которых составляются словари. Специальные программы, информационная база, компьютерные картотеки, разрабатывающие программы дают возможность сохранения и разработки информаций в словаре. В целях сравнения приведем этапы составления книжного и электронного словарей. Составление книжного словаря: составление словарного фонда словаря; составление картотеки примеров; написание словарных статей; составление рукописного варианта словаря; редактирование рукописи и печатание; авторские дополнения и урезания; повторное печатание и корректура; верстка; корректура; издание; словарь. Составление электронного словаря: составление словарного ресурса; составление корпуса примеров (с использованием электронных корпусов текстов); написание словарных статей; копирование словарных статей в информационную базу; корректура текста словаря в информационной базе; словарь[14]. Трудно представить электронную лексикографию без виртуальной клавиатуры системы UTF-8. Если виртуальная клавиатура предоставляет пользователям электронных словарей огромные возможности, то система UTF-8 существенно облегчает и упрощает труд не только лексикографов, но и тех, кто ведет исследовательскую работу в области языкознания. Итак, остановимся на каждой из них по отдельности. Виртуальная клавиатура в настоящее время широко используется в банковской системе, электронных переписках, электронных словарях и в других сферах общественной жизни. Пользование такой клавиатурой, во-первых, не вызывает трудностей, а во-вторых, она помогает устранить некоторые изъяны, например, при отсутствии в клавиатуре букв русского алфавита мы можем пользоваться виртуальной клавиатурой. UTF-8 (8-bit Unicode Transformation Format): В интернет-паутине либо в некоторых программах наблюдается отсутствие букв, характерных для кыргызского языка - ң, ү, ө. Вместо этих символов монитор показывает нам символ вопросительного знака либо другие символы. Это, конечно, объясняется тем, что при составлении стандартов первичных символов учитываются в основном особенности международных языков. В первичных пакетах символов на один символ расходовался один байт, поэтому мы использовали для графики одного языка один пакет символов, и соответственно не могли пользоваться знаками других пакетов. Например, не было возможным на одной интернет-странице размещение текста с символами кыргызского языка и турецкого. Т.е. если интернет-страница была адаптирована к алфавиту кыргызского языка, то она читала исключительно символы, характерные кыргызскому языку. Такая проблема имела место не только в интернет-страницах, но и в информационных базах, словарях и других электронных средах. Для решения данной проблемы разработаны юникод системы. Если вначале разрабатывались юникод системы для каждого языка по отдельности, то на сегодняшний день имеется современная модель юникод системы UTF-8, которая может функционировать как один пакет символов для мировых языков. Главная особенность данного пакета символов заключается в том, что в него включены символы всех алфавитов мира. Порядок кодов особых символов кыргызского языка в этой системе отражен следующим образом: Character Name Character Entity Hex Entity CYRILLIC CAPITAL LETTER STRAIGHT U Ү Ү Ү CYRILLIC SMALL LETTER STRAIGHT U ү ү ү CYRILLIC CAPITAL LETTER BARRED O Ө Ө Ө CYRILLIC SMALL LETTER BARRED O ө ө ө CYRILLIC CAPITAL LETTER EN WITH DESCENDER Ң Ң Ң CYRILLIC SMALL LETTER EN WITH DESCENDER ң ң ң Пакет символов UTF-8 принимает символы других пакетов и, что важно, обеспечивает их работу в одной системе. Через данный пакет символов мы на сегодняшний день имеем возможность читать электронные варианты разного рода текстов. Скажем, на одной интернет-странице могут размещаться одновременно тексты, относящиеся к символам китайской, японской, кыргызской либо турецкой графики. Таким образом, была разрешена одна из больших проблем процесса составления двух- и многоязычных электронных словарей. Система UTF-8 Использование в страницах HTML: Использование в страницах XML: Использование в сервере Apache AddDefaultCharset UTF-8 Опрос MySQL UTF-8 mysql_query("SET NAMES 'utf8'"); mysql_query("SET CHARACTER SET utf8"); В целях создания стандартов UTF-8 введен алфавит орхоно-енисейских памятников под названием «Old Turkic» с помощью действия «Unicode». В результате мы имеем следующий электронный вариант данного алфавита: Теперь мы имеем возможность пользоваться данным алфавитом в электронном виде. Такого рода возможности и удобства электронной лексикографии оптимизируют работу в области компьютерной лингвистики и обработки естественного языка. Но масштаб возможностей информационных технологий не ограничивается несколькими научными направлениями, потому как в наше время уже невозможно представить образ любой отрасли современной науки без участия в ней передовых информационных технологий. Что касается лингвистики, то наблюдается активное внедрение в неё новых методов передовых информационных технологий, это ярко наблюдается в интенсивном росте технических возможностей. В качестве иллюстрации этого нами было рассмотрено решение проблемы, связанное с символами, а также программой относительно кыргызского языка. Помимо электронных переводов, поиска, нахождения и сравнения языковых средств в рамках электронных словарей можно совершать и другие операции, например, операции, связанные с лингвистической статистикой, и т.д. Следует отметить, что с появлением системы символов UTF-8 расширились возможности программ, направленных, в частности, на изучение лингвистических проблем, многоязыковых переводов и словарей. Такие изменения прогрессивного характера в области электронной лексикографии в целом имеют базисное значение для ряда таких направлений, как компьютерная лингвистика, математическая лингвистика, когнитивная лингвистика, программа переводов, текстовые редакторы и др., методы и технологии которых могут быть использованы в области электронной лексикографии.

Научные конференции

 

(c) Архив публикаций научного журнала. Полное или частичное копирование материалов сайта возможно только с письменного разрешения администрации, а также с указанием прямой активной ссылки на источник.