Home ¦ Реестр языков мира ¦ Карты ¦ Языки России ¦ Страны мира ¦ Publications

Коряков Ю.Б., Майсак Т.А.

Систематика языков мира и базы данных в интернете

 

Эта статья была опубликована в "Трудах Международного семинара "Диалог '2001" по компьютерной лингвистике и ее приложениям. М., 2001".

С тех пор некоторые ее положения развились, о чем можно прочитать в разделе "Систематика языков". В то же время Обзор языковых каталогов, предложенный во второй части статьи до сих пор вполне актуален.

1. Теоретические предпосылки

Во многих науках существует особая вспомогательная дисциплина, помогающая упорядочивать изучаемые данной наукой объекты – систематика. Это касается прежде всего естественных наук, где есть что упорядочивать. Наибольшего совершенства систематика достигла в биологии, причем кое-что лингвисты в свое время позаимствовали у биологов (например, идею генетического древа в качестве модели развития языков). Достойно удивления, что одно из достоинств биологии – строгая систематика объектов – до сих пор не была воплощена в лингвистике.

Вот что характерно для созданной еще Карлом Линнеем в XVII веке биологической систематики:

 

Таким образом, в систематике можно выделить три группы принципов:

Посмотрим теперь, насколько можно применить эти принципы для создания систематики языков, чтобы она была универсальной и удобной в использовании

Единая иерархически организованная система

В основу Систематики языков должна, очевидно, лечь генетическая классификация языков (ГКЯ): эволюционно-генетическая группировка является естественной, а не искусственной, она достаточно объективна и устойчива (в отличие от зачастую быстро меняющейся ареальной принадлежности). Однако в отличие от биологии, в лингвистике ГКЯ не сведена в единую систему и это вряд ли вообще может быть сделано, поскольку чем глубже уровень реконструкции, тем он менее надежен, если возможен вообще. Поэтому верхние уровни Систематики языков необходимо базировать на каком-то другом принципе.

Единство всей системы и сравнимость единиц одного уровня должны обеспечиваться общими критериями для отнесения объектов к тому или иному уровню. Поскольку основой Систематики языков должна быть ГКЯ, то, следовательно, и критерии нужно использовать генетические. Генетическую близость можно выразить в цифрах, определив примерное время распада языковой общности для каждого уровня по глоттохронологической методике. Однако, такая система будет излишне сильно опираться на пошлое, а нас в данном случае интересует прежде всего систематика, удобная для современного разнообразия языков. Поэтому более удобным кажется относительный критерий, например, сохранность базовой лексики в процентах. Это критерий хорош тем, что учитывает скорее синхронную близость языков, нежели точную дату их расхождения. Однако его надежность заметно снижается по мере приближения к крайним точкам шкалы (от 0% до 100%). Совпадение базовой лексики в 5-10 % может быть случайным и должно подкрепляться другими весомыми данными.

Сказанное относится прежде всего к высоким уровням классификации (группы, семьи, макросемьи). Что касается использования этого критерия для выделения отдельных языков и уж тем более их диалектов, то здесь тоже можно найти немало возражений. Прежде всего, многие лингвисты уже привыкли к тому, что понятия "язык" и "диалект" слишком расплывчаты и относятся скорее к ведению социолингвистики. С социолингвистической точки зрения можно выделить несколько критериев для отнесения идиомов к одному или нескольким языкам:

В единой Систематике критерии для отнесения объектов к одному уровню должны отвечать следующим требованиям: применимость к любому объекту и непротиворечивость (или однозначность) отнесения объекта к определенному классу. Удовлетворяют ли вышеперечисленные критерии этим требованиям?

Первый (народ = язык) неудобен уже тем, что определение народа является еще более сложным. Поэтому скорее классификация народов должна основываться на Систематике языков, а не наоборот.

Многие исследователи целиком уповают на мнение носителей. Однако, мнение разных носителей может не совпадать между собой; это мнение легко меняется под воздействием внешних факторов и пропаганды; утверждение одних людей, что они говорят на языке Х, может противоречить мнению других носителей этого же языка, утверждающих, что первые говорят на другом языке; и наконец, во многих культурах вообще не было и нет четкого представления о своем языке. Так что, этот казалось бы самый важный критерий противоречит обоим поставленным требованиям.

Третий критерий является следствием структурного различия языков и мог бы быть вынесен за рамки социолингвистики, однако реально взаимопонятность осложняется многими другими факторами, как-то: знакомство с языком собеседника, тема общения, само желание/нежелание понимать собеседника и пр.

Общая письменная традиция (ср. немецкий термин Dachsprache "язык-крыша") часто объединяет довольно далеко разошедшиеся идиомы (например, итальянский, немецкий или китайский литературные языки) или даже отдаленно родственные (латынь в средние века). Причем у разных частей одного идиома могут оказаться разные "крыши" (нижнесаксонские диалекты в Нидерландах и Германии), что противоречит принципу однозначности. А главное, это принцип заведомо не может быть применим к языкам, не обслуживаемым никакой письменной традицией.

Следуя последнему критерию, мы должны присвоить некоторому числу функционально полноценных идиомов статус "язык", остальные же (например, используемые лишь в ситуации бытового общения) оставить в ранге "диалектов". Безусловно, это очень важный критерий, однако его невозможно использовать для универсальной систематики Языков.

Таким образом, из рассмотренных критериев лишь взаимопонятность хоть как-то отвечает поставленным требованиям. Но наиболее простым способом измерить ее является сравнение структурной близости языков и, в частности, совпадения лексики — прежде всего базовой.

Итак, там где это возможно, лучше всего использовать критерий сохранности базовой лексики. Однако, таким способом мы сможем объединить известные нам языки мира лишь в достаточно большое количество объединений (около сотни), причем часть языков никуда не попадет. Свести все это в меньшее количество единиц на основе генетических принципов оказывается невозможным (по крайней мере, на том же уровне надежности). В то же время, для придания нашей системе законченности это нужно как-то сделать. Возможным выходом является все же объединение их по географическому принципу.

Единая система таксонов

Стройной системе таксонов в биологии лингвисты могут только позавидовать. Хотя и у нас существует немало терминов (семья, группа, ветвь, иногда фила, филум), но их использование очень сильно варьирует от автора, языка описания и конкретной ситуации. Очевидно, что необходимо предложить некоторую стройную систему таксонов (лучше вместе с примерным уровнем сохранения базовой лексики для каждого уровня). Возможно, что лучше даже отказаться от традиционной терминологии, чтобы она не приводила к путанице. Но этот вопрос остается пока открытым.

Единая система номинации

В отличие от объектов биологии, для которых в каждом языке существуют свои названия, названия языков, как правило, довольно близки между собой (используется обычно тот же корень, с фонетическими изменениями и дополнительными суффиксами, ср. русский, Russian, russo и пр.). Это, с одной стороны, облегчает ситуацию (обычно в тексте на любом языке можно понять, о каком языке идет речь), с другой стороны, усложняет ее, поскольку насущность решения вопроса не столь очевидна, как это было в своем время в биологии. Тем не менее, идея номинации языков независимо от языка описания кажется нам очень удобной и важной. Многим лингвистам не раз приходилось сталкиваться с тем, что для известного языка в другом языке используется совсем другое слово; или даже с тем, что в одном языке один и тот же язык именуется по-разному.

Соответственно, встает вопрос о метаязыке для номинации языков (и их объединений). Использовать, как в биологии, латынь не имеет смысла – это было бы слишком искусственно, а кроме того, латынь в современной лингвистике практически не используется. Можно использовать какой-то современный язык, тогда на эту роль будет скорее всего претендовать английский. Но не стоит упускать из виду, что объекты изучения лингвистики (в отличии от той же биологии) уже имеют для самих себя названия (самоназвания, или автолингвонимы), и мы вполне можем использовать их, договорившись лишь о единой их письменной фиксации.

Однако этот принцип практически неприменим для названий объединений языков. Здесь можно предложить несколько решений:

 Каждое из этих решений имеет свои преимущества и недостатки, так что пока и этот вопрос остается открытым.

 2. Систематика языков в базах данных интернета

В лингвистике (к сожалению, преимущественно западной) существует целый ряд справочников, посвященных перечислению языков мира и приведению их в единую систему классификации. Лишь несколько из таких изданий претендуют на полноту охвата языкового разнообразия (на русском языке подобных справочников не существует). Двумя наиболее полными и наиболее современными работами такого рода являются “Этнолог” (Ethnologue: Languages of the World), известный многим отечественным лингвистам, и появившийся лишь недавно и поэтому пока недостаточно известный “Реестр Лингвосферы” ( The Linguasphere Register of the World's Languages and Speech Communities).

*Недавно возник проект по созданию аналогичного справочника по-русски, только более полного и объединенного с атласом языков. Подробности...

Обе работы доступны как в печатном виде (хотя в российских библиотеках они отсутствуют), так и через интернет (см. подробнее ниже) — тем самым, они являются уникальными справочными изданиями по языкам мира, воспользоваться которыми может любой желающий.

 Ниже подробный обзор данных работ дан по единой схеме, включающей: 

  1. Наличие единой иерархически организованной системы и принципы организации;
  2. Принципы выделения языков / диалектов;
  3. Наличие единой системы таксонов;
  4. Наличие единой системы номинации языков (и более мелких единиц);
  5. Наличие единой системы номинации групп языков;
  6. Дополнительные названия на языке описания и на других языках;
  7. Объем сведений для каждого языка;
  8. Общий объем работы: количество языков; количество глоттонимов;
  9. Включение мертвых, искусственных языков, пиджинов, языков глухонемых;
  10. Наличие приложений: указатели, карты, библиографии;
  11. Доступность для пользования и для исправления.

"Этнолог", 1996

“Этнолог” был разработан в SIL — одной из наиболее известных в мире лингвистических организаций, недавно переименованной в SIL International , а ранее известную как Summer Institute of Linguistics (Летний лингвистический институт).

Это крупнейшая в мире организация ставит своей целью изучение редких и малоизвестных языковых сообществ мира, описание их языка и культуры, распространение грамотности и создание письменности для бесписьменных языков, а также перевод на эти языки различных текстов (например, Библии). В настоящее время SIL насчитывает порядка 6.100 сотрудников; президентом организации является Кэролин Миллер (Carolyn P. Miller).

Одним из направлений деятельности SIL является разработка справочника по языкам мира. Обновленные переиздания этого справочника выходят каждые 4 года. Последнее издание вышло в 2000 г., однако в силу его недоступности мы ниже приводим данные по 13-му изданию 1996-го года, которое помещено и в интернете. Редактором "Этнолога" являлась Барбара Граймс (Barbara Grimes), занимавшая эту должность с 1971 по 2000 год; новым редактором “Этнолога” стал Рэй Гордон (Ray Gordon) из Далласа.

 

  1. Наличие единой иерархически организованной системы и принципы организации
  2. Хотя в данной работе и используется ГКЯ, основная часть книги построена по политико-географическому принципу: разделами являются страны, а далее перечисляются статьи о языках в алфавитном порядке. Один язык может встречаться несколько раз (одна из стран тем не менее считается основной для языка). Для каждого языка указывается его место в ГКЯ, которая целиком приводится в качестве приложения. ГКЯ доходит только до уровня надежно реконструируемых объединений, что приводит к сильной неравномерности: например, количество объединений в Америке достигает 60, а в остальной части мира их всего 34. При этом большое количество языков попадает или в группу изолированных, или в группу неклассифицированных языков.

  3. Принципы выделения языков / диалектов
  4. В предисловии к Этнологу говорится о разном понимании терминов "язык" и "диалект" как среди носителей, так и среди лингвистов. Сами авторы, исходя из целей составления этого справочника (вспомогательное пособие для переводчиков Библии на другие языки), стремятся подавать как отдельные языки те идиомы, носители которых с трудом могут читать или говорить на другом идиоме, не изучая его специально. То есть, они исходят из критерия взаимопонятности. Кроме того, во внимание принимаются и некоторые социолингвистические факторы, например, отношение к другому языку, самоидентификацию носителей и другие.

  5. Наличие единой системы таксонов
  6. В Этнологе не используется никаких таксонов, кроме терминов "язык" и "диалект". Названия групп языков в "древесном" изображении ГКЯ (в Приложении) даются без сопроводительного таксона и различаются лишь величиной абзацного отступа.

  7. Наличие единой системы номинации языков (и более мелких единиц)
  8. Языком описания в Этнологе является английский, так что и все названия языков и групп языков даются по-английски. При этом одно из английских названий выбирается в качестве основного, другие же приводятся рядом в скобках. Никакой попытки разработать единую систему номинации, независимую от языка описания, не делается.

    Зато, каждому языку (но не диалекту и не группе языков) присваивается особый идентификационный код, состоящий из трех заглавных букв латинского алфавита и приводимый в квадратных скобках после названия языков. Это помогает различать языки с одинаковыми названиями и используется в компьютерных воплощениях Этнолога в качестве имени для гиперссылок. Часто буквы кода соответствуют названия языка, однако это, по понятным ограничениям, накладываемым количеством букв, не всегда бывает так.

  9. Наличие единой системы номинации групп языков
  10. Для групп языков, также как и для отдельных языков, используется английский язык. Названия даются так, как они сложились в лингвистической традиции, основываясь прежде всего на энциклопедии The Oxford University Press International Encyclopedia of Linguistics (1992) под ред. Уильяма Брайта, а также на более поздних изысканиях в этой области.

  11. Дополнительные названия на языке описания и на других языках
  12. Для каждого языка (и в меньшей степени диалекта) в скобках после основного названия даются альтернативные названия по-английски и иногда автолингвонимы и названия на других языках. Все они обычно никак не разграничиваются. Названия, несущие оскорбительный оттенок, ставятся в кавычки. В самом тексте иногда приводится название этнической группы, если оно сильно отличается от названия языка. Все названия даются только в латинской шрифте с небольшим набором диакритик (в основном используемые в западно-европейских алфавитах). Другие пиьсменности не используется и их не предполагается использовать.

     

  13. Структура работы; объем сведений для каждого языка;
  14. Основная часть Этнолога организована по странам (всего 228 стран). Для каждой страны сначала приводится краткая справка: население страны (как правило, на 1995 год); полное официальное название по-английски и на официальном языке данной страны; столица; площадь; уровень грамотности; список языков иммигрантов с числом носителей в данной стране (сюда включаются также языки, для которых известно только число носителей, если более подробная информация о них дается под другой страной); степень точности данных для всей страны (в основном относительно взаимопонятности и проверки информации лингвистами) по четырехбалльной шкале; основные религии; количество слепых и глухонемых и количество учреждений для них; общее число языков (не включая языки иммигрантов), в том числе число живых, мертвых и употребляемых только в качестве второго языка.

    Затем перечисляются языки, для каждого из которых даются следующие краткие сведения в неструктурированной текстовой форме (в вид единого абзаца): основное название, варианты названий в скобках (заглавными буквами); трехбуквенный идентификационный код в квадратных скобках; число носителей, в том числе монолингвов, билингвов, и тех, для кого это второй язык; источники сведений; число носителей в других странах, число носителей во всех странах; примерная территория распространения; аффилиация; список диалектов с вариантами названий (заглавными буквами); дополнительнеая социолингвистическая информация; СМИ и литература; образование и грамотность; степень взаимопонятности между диалектами; тип письменности; официальный статус языка; краткая типологическая характеристика грамматики (как правило, базовый порядок слов); наличие шрифт Брайля; основная религия; наличие перевода Библии. Впрочем, для многих языков значительная часть информации может отсутствовать.

     

  15. Общий объем работы: количество языков; количество глоттонимов
  16. В Этнологе выделяется более 6.700 языков. В Указатель названий включено более 39 тыс. названий языков и диалектов (основных и вариантов). Однако в указатель не включены названия групп языков, и их точное число в Этнологе неизвестно.

     

  17. Включение мертвых, искусственных языков, пиджинов, языков глухонемых
  18. Помимо генетических объединений языков, в Указателе языковых семей есть дополнительный раздел "Языки, представляющие специальный интерес", где приводятся списки изолированных и неклассифицированных языков; пиджинов и креольских языков; языков жестов и языков глухонемых; а также такие интересные категории, как "еврейские" и "цыганские" языки.

    Принадлежность ко всем этим категориям указывается в статьях соответствующих языков вместо генетической принадлежности (кроме еврейских и цыганских, которые указываются дополнительно к ней).

    В Этнолог включаются те мертвые языки, которые вымерли лишь недавно или занимают особое место внутри своей семьи или если на них есть перевод Священного Писания. Мертвые языки не включаются в общую статистику, однако ни их список, ни их число нигде не приводится.

    Никакие вспомогательные и/или искусственые языки (как эсперанто или волапюк) в Этнолог не включены.

     

  19. Наличие приложений: указатели, карты, библиографии

Данный справочник включает 3 части: это

  1. Доступность для пользования и для исправления.
  2. Электронная версия 13-го издания “Этнолога” была опубликована в 1996 г. и впоследствии выпускалось на CD-ROM. Полный текст книги (кроме карт) доступен в html-формате в интернете по адресу http://www.ethnologue.com/ . Там он организован в виде базы данных, по которой можно производить поиск по слову или при помощи идентификационного кода, уникального для каждого языка.

    Имеется также раздел, в котором желающие дополнить информацию в "Этнологе" могут заполнить анкеты по соответствующим темам и послать их в редакцию. Это весьма развернутые анкеты по общим сведениям о языке, по социолингвистической ситуации, по владению языком в качекстве второго и пр. По-видимому, предполагается, что эти анкеты рассчитаны лишь на специалистов.

    "Реестр Лингвосферы", 2000

    Первое печатное издание "Реестра Лингвосферы" вышло в январе 2000 г. на английском языке под названием The Linguasphere Register of the World's Languages and Speech Communities (в 2 томах, общий объем 1043 стр.). "Реестр" был практически полностью создан одним человеком -- лингвистом из Великобритании Дэвидом Долби (David Dalby), известным в нашей стране прежде всего своими работами по африканистике. Ему же принадлежит идея создания так называемой “Обсерватории Лингвосферы” (Observatoire Linguistique, Linguasphere Observatory, Bhasha Vishwa) — проекта по изучению и системному описанию языков и языковых сообществ мира.

    "Реестр" является на сегодняшний день основным результатом деятельности Обсерватории Лингвосферы. В целом, задачей Обсерватории является наблюдение за современным состоянием и развитием лингвосферы -- совокупности всех языков мира в их взаимосвязи (по аналогии с термином “ноосфера”, предложенным В. Вернадским). Обсерватория существует с 1983 г. и является независимой и некоммерческой транснациональной (т.е. развивающейся на пересечении национальных групп и независимо от государственныхз границ или контрорляч со стороны конкретных стран) организацией. Составными частями Обсерватории являются добровольные ассоциации, существующие на сегодняшний день в Нормандии, Уэльсе, индийских штатах Гуджарат и Махараштра; с лета 2000 года в работе Обсерватории принимают участие и лингвисты из Москвы.

    Том 1 "Реестра" включает в себя предисловие проф. Колин Уильямс, обширную вступительную статью Д.Долби с общей характеристикой языковой ситуации в мире в XX веке, а также словарь принятых в Реестре терминов и понятий, библиографию, указатели, статистические таблицы и карту лингвосферы.

    Том 2 включает собственно Реестр языков с предисловием проф. Ролана Бретона. Реестр содержит информацию о более чем 20 тысячах языков и диалектов мира, распространенных в XX веке — от языков, находящихся под угрозой вымирания, до 28 “языковых артерий мира”, т.е. языков, на каждом из которых говорит более 1% человечеcтва.

    Далее следует характеристика "Реестра Лингвосферы" по выделенным нами параметрам. В силу малоизвестности данного издания в России эта характеристика более полна, нежели описание "Этнолога" выше.

     

  3. Наличие единой иерархически организованной системы и принципы организации
  4. Система классификации языков, принятая в Реестре, является оригинальной разработкой Дэвида Долби. В ее основу положены принципы в чем-то традиционные, но в чем-то весьма отличные от других указателей языков. (Хотелось бы подчеркнуть, что в разработке достаточно простого и удобного принципа каталогизации языков мира Долби видит одну из своих основных задач; этой проблемой он занимался начиная с 70-х годов, работая над картой языков Африки.)

    Наиболее крупными таксонами являются сектора, которых выделяется 10, причем каждый из которых подразделяется на 10 зон. Как сектора, так и зоны выделяются либо по генетическому принципу (это, соответственно, “филосектора” и “филозоны”), так и по ареальному (“геосектора”, “геозоны ”) в случае, если последнее основание выделения предпочтительнее.

     Филосекторов пять — 1=Афразийский, 3=Австронезийский, 5=Индо-европейский, 7=Сино-индийский и 9=Трансафриканский. Как легко заметить, эти сектора примерно соответствуют традиционным “семьям” или “макросемьям” — под Сино-индийским сектором в данном случае имеется в виду сино-тибетская семья языков, а под Трансафриканским — конго-атлантическая (включающая все языки гипотетической нигеро-кордофанской макросемьи, кроме манде и кордофанских). В силу того, что ярлыки для названия "семей" и подобных объединений часто наполняются различным содержанием в различных работах, автор часто отказывается от традиционных названий.

     Геосекторов также пять — это 0=Африка (куда попали языки нило-сахарской и койсанской макросемей, и манде и кордофанские языки, включаемые в нигеро-кордофанскую макросемью), 2=Австралазия (» австралийские, тасманийские и папуасские языки), 4=Евразия (» "алтайская", уральская, дравидийская, аустроазиатская, паратайская, северокавказская, картвельская семьи и все изолированные языки Евразии), а также 6=Северная Америка и 8=Южная Америка. Если в качестве филосекторов автор выделяет лишь те пять крупнейших языковых объединений, родство внутри которых бесспорно и принимается мировым научным сообществом, то в геосектора включаются более мелкие группы языков или такие объединения, родство между которыми принимается большинством ученых скорее лишь на уровне гипотезы (например, "алтайская" макросемья, а тем более "ностратическая" или "америндская" макросемьи).

     Внутри зон языки группируются уже исключительно по генетическому принципу, причем здесь также используется оригинальная концепция группировки языков, предложенная Д. Долби взамен традиционных терминов “семья”, “группа”, “подгруппа” и пр. Внутри зоны языки последовательно объединяются на трех уровнях генетической близости: крупнейшее объединение именуется ОТРЯД (англ. set) и предусматривает наличие у языков хотя бы 25-35% совпадений в базовом словаре. Таких объединений насчитывается 694. (Примерами объединений уровня ОТРЯД могут служить абхазо-адыгский, нахско-дагестанский и картвельский отряды в 42=Кавказской геозоне или енисейский, чукотско-камчатский, юкагирский и нивхский отряды в 43=Сибирской геозоне). Далее, уровень ЗВЕНО (англ. chain ) соответствует большей степени близости языков, примерно 36-50% (1.410 групп, например нахское, лезгино-даргинское, аваро-андо-цезское и лакское звенья в нахско-дагестанском отряде или скандинавское, английское, западно-германское и восточно-германское звенья в германском отряде 52=Германской филозоны). Наконец, уровень ЯЧЕЙКА (англ. net) отражает степень близости с порядка 51-70% лексических совпадений (это 2.694 объединения типа аваро-андийской и цезской ячеек в аваро-андо-цезском звене или четырех ячеек в славянском звене славянского же отряда Славянской филозоны). [Русские переводы таксонов данного уровня достаточно условны.]

     Внутри ячеек происходит последнее деление языков, причем здесь также выделяются три уровня (Д. Долби намеренно отказывается от жесткой дихотомии “язык” vs. “диалект”). Внешний язык соотносится с базовой демографической единицей классификации. В традиционной классификации он соответствует одному или группе нескольких близкородственных языков, для которых можно говорить не менее чем о 71-85% совпадений в базовом словаре; это, например, русско-украинско-белорусский, аварский, андийский. Базовой единицей собственно лингвистической классификации является внутренний язык. Традиционно ему соответствует наречие, группа диалектов или отдельный язык, с более чем 86% совпадений в базовом словаре. Наконец, в классификации может использоваться и самый нижний уровень — диалект, соответствующий определенной территориальной, социальной или письменной разновидности внутреннего языка.

     

  5. Наличие единой системы таксонов;
  6. Система таксонов "Реестра" является развернутой и достаточно строго определенной. Она отличается от какой-либо традиционной системы, в чем состоит как ее достоинство, так и некоторая трудность восприятия при первоначальном знакомстве со справочником. Эта система имеет три основных уровня классификации: на верхнем уровне выделяются сектора и зоны, на среднем – отряды, звеньи и ячейки, и на нижнем – внешние языки, внутренние языки и диалекты. См. подробнее пункт 1.

     

  7. Принципы выделения языков / диалектов;
  8. Принятая в Реестре трихотомия внешний язык / внутренний язык / диалект не соотносится непосредственно с традиционной дихотомией язык / диалект. Хотя отмечается, что при отнесении идиома к тому или иному уровню используются лишь "лингвистические" факторы (например, процент совпадения базовой лексики), на практике этот критерий применяется не всегда, а учитываются и такие параметры, как взаимопонимаемость идиомов и языковая самоидентификация носителей.

    Процедура применения таких внешнелингвистических факторов при систематике идиомов строго не формулируется. Так, например, в англоязычном ареале (ячейка 52-ABA English) выделяются 3 внешних языка: северо-британский (шотландско-нортумбрийские д-ты), южно-британский (собственно английские д-ты) и Global-English (все остальные варианты: стандартный английский и не-британские формы). Русский, украинский и белорусский языки объединены в один внешний язык 53-AAA-e Russkiy+Ukrainska.

    Литературные языки трактуются наряду с нелитературными формами как внутренние языки (сербский и хорватский наряду с кайкавским, чакавским и штокавским внутренними языками в сербско-хорватском внешнем языке) или диалекты (болгарский или македонский литературные диалекты в составе соответствующих внутренних языков в одном болгаро-македонском внешнем языке). Аналогично, одним внешним языком (и двумя внутренними) являются хинди и урду, которые, несмотря на использование различных систем письма, практически полностью взаимопонимаемы в устной речи .

     

  9. Наличие единой системы номинации групп языков;
  10. Каждое из объединений высшего уровня – сектора – имеет свой номер, причем геосектора пронумерованы нечетными цифрами (1, 3, 5, 7, 9), а филосектора – четными (0, 2, 4, 6, 8).

    Названия крупных уровней имеют в оригинале единообразные суффиксы: все имена филосекторов оканчиваются на – an (например, 1=Afro-Asian), имена геосекторов оканчиваются на –a (например, 2=Australasia ), а все названия филозон оканчиваются на –ic (например, 12= Semitic, 41= Uralic и пр. ).

    Каждой из 100 языковых зон присвоен номер от 00 до 99: первая цифра указывает на номер сектора, вторая на номер зоны внутри сектора. Благодаря такому простому цифровому коду может быть облегчен поиск языка в справочнике; подобный код может быть использован для отсылки к тому объединению, в которое входит язык (например, [44] Tatar или [51] Italiano) и в принципе может быть использован не только лингвистами, но и историками, этнографами, географами и пр.

    Каждому из трех крупнейших уровней объединения ниже зоны (отряд, звено и ячейка) соответствует буквеный код из заглавных букв: например, 42-B для отряда Noxchin+Avar, далее 42-BB для звена Avar+Lak, далее 42-BBA для аваро-андо-цезской ячейки Avar+Dido (внутри нахско-дагестанского отряда). Хотя это ограничивает возможность отражения разнообразия объединений до 26-и (по количеству букв латинского алфавита), реально большее число подразделений не встречается.

    Названия средних уровней иерархии – отрядов, звеньев и ячеек – представляют собой сочетания двух основных составляющих более низкого уровня вместо использования традиционных, часто искусственных и иноязычных названий, ср. отряд Norsk+Frysk (единственное в 52=Германской филозоне) и звено Norsk+Svenska вместо Nordic или Scandinavian (скандинавские языки).

    Каждому из таксономических уровней соответствуют особые типографские конвенции: так, названия секторов, зон, отрядов, звеньев и ячеек даются прописными полужирными буквами.

     

  11. Наличие единой системы номинации языков (и более мелких единиц);
  12. Помимо краткого цифрового кода, используемого для отнесения языка к одной из 100 зон (например, [51] Français), каждый идиом имеет полный буквенный код, в котором отражено его положение во всех высших уровнях иерархии. Он состоит из двух цифр (сектор+зона), трех заглавных букв (отряд+звено+ячейка) и трех строчных букв (внешний язык+внутренний язык+диалект), ср. внешний язык 51-AAA-i Français, внутренний язык 51-AAA-id français-G. (разговорный французский Франции), диалект 51-AAA-idd français-de-normandie (региональный вариант Нормандии).

    Названия внешних языков иногда являются составными, ср. Russkiy+Ukrainska.

    Названия внешних языков даются с большой буквы, внутренних языков и диалектов – строчными буквами; все названия, кроме названий диалектов, выделены полужирным шрифтом.

     

  13. Дополнительные названия на языке описания и на других языках;
  14. Для языков и диалектов основным называние всегда является самоназвание, что обеспечивает универсальную систему обозначения языков, не зависящую от языка описания и сравнимую с латинской номенклатурой в биологии. В первом издании Реестра самоназвания даны в латинице (например, “russkiy”, “ukrainska”, "kartuli" и др.), однако в будущем планируется приводить также и написание названия языка в оригинальной письменности.

    Приводятся также все варианты самоназвания, а также основное(-ые) названия по-английски. Названия на других языках предваряются указанием на язык (например, in [53] Russkiy : "абхазо-адыгский”) .

  15. Объем сведений для каждого языка;
  16. Сведения о языках и диалектах в Реестре структурированы и представлены в виде пяти колонок, каждая из которых имеет фиксированное содержание.

    В колонке 1 приводится буквенный код объединения или идиома (см. выше). В колонке 2 приводится основное название, используемое при отсылке. Перед названиями идиомов, которые существуют ныне только на письме, ставится значок & ; а для идиомов, основанных на письменной норме (литературных), значок - . В колонке 3 приводятся все прочие названия языков, а также даются и другие сведения о языке, предваряемые специальными значками: E сведения о дву-, многоязычии и диглоссии; C сведения о контактах и взаимодействии языков; Å с ведения об ареале или эпицентре распространения; ¶ сведения о носителях, их перемещениях и т.д.; # номенклатурные замечания: этимология, использование названий; Ø сведения о близости языков, переходном характере и т.д.; & сведения об используемой письменности и письменной норме. В колонке 4 указываются государства (а в скобках более мелкие административные единицы), в которых распространен данный идиом. В колонке 5 указывается индекс численности носителей. Индексом является цифра от 0 до 9, которая соответствует порядку числа говорящих (как в качестве первого, так и второго) на языке (0 = язык вымер после 1900 г., 1 = менее 100 чел., 2 = 100 и более чел., 3 = 1000 и более чел., и т.д.). Значком i помечены отряды, ячейки или звенья целиком исчезнувшие к концу 20-го столетия, а значком l – идиомы, вымершие до начала 20-го века.

     

  17. Общий объем работы: количество языков; количество лингвонимов;
  18. По принятой в Реестре терминологии, выделяется 13.840 “внутренних языков” (с более чем 8.881 составляющих их диалектов), которые объединены в 4.994 “внешних языков”, и далее в 694 более крупные языковые общности.

    В Указателе названий содержится более 70 тыс. входов (название + цифровой код); при этом, данный указатель включает в себя как все названия языков и диалектов, так и (в отличие от "Этнолога") названия языковых объединений разных уровней. В связи с этим, оценить количество лингвонимов в узком смыслке слова (названий языков и диалектов) довольно трудно.

     

  19. Включение мертвых, контактных и искусственных языков, языков глухонемых;
  20. В Реестр включена информация о всех живых языках XX века. Из мертвых языков учтены: во-первых, те, которые в письменной форме продолжали использоваться в XX веке (например, латынь, санскрит, церковнославянский и др.), причем в будущем предполагается учесть и все языки, от которых остались какие-либо письменные памятники (этрусский, древнекитайский, хеттский и пр.); во-вторых, языки, исчезнувшие прежде всего в течение XX века (убыхский, айнский и др.), а по возможности и за последние пять столетий (например, полабский, готский, многие языки Америки, Австралии и других регионов, исчезнувшие в процессе экспансии европейских языков), — поскольку языки как первой, так и второй групп непосредственно влияли и влияют на современное состояние лингвосферы.

    Контактные языки (пиджины и креольские) включены в Реестр, причем перечисляются в разделах, соответствующих языку-лексификатору (например, все контактные языки на романской основе – в филозоне 51=Romanic).

    Среди искусственных языков упоминаются лишь некоторые: так, эсперанто, идо и новиаль выделяются в составе одной из мелких групп той же филозоне (51=Romanic).

    Информации о языках глухонемых в текущей версии Реестра нет, однако ее предполагается разместить в будущих изданиях.

     

  21. Наличие приложений: библиографии, указатели, таблицы, карты;
  22. Библиография в Реесте приводится в качестве предварительной и насчитывает более 200 основных источников.

    Имеется обширный “Указатель языков и языковых сообществ” (более 160 стр.), о котором см. выше. “Указатель по странам” соержит информацию о государственных и официальных языках стран (перечисленных в алфавитном порядке). Приводятся обобщающие таблицы по языкам, н акоторых говорит более 1% населения Земли (60 и более млн. чел.), а также по языкам, на которых говорит 10-59 млн. чел. Имеются также таблицы со статистикой по секторам и зонам (число отрядов в зоне, число внешних языков, вымерших языков и пр.).

    В Реестре имеется одна общая карта лингвосферы, на которой изображены границы языковых зон, с указанием индекса численности носителей. Вместе с тем, одним из проектов Обсерватории Лингвосферы является создание “Картографической база данных Лингвосферы” (Linguasphere Mapbase), которая должна представлять собой подробные карты распространения языков и диалектов по всем ареалам мира. В настоящее время создана подробная карта языков Африки; совместно с индийским отделение Обсерватории ведется работа по созданию карты языков Индии .

     

  23. Доступность для пользования и для исправления.
  24. С экземпляром печатного издания можно познакомиться в секторе "Языки мира" Института языкознания РАН (Москва, Бол. Кисловский пер., 1/12, комн. 36).

    Часть материалов печатного издания в формате *.pdf помещена на сайте Обсерватории Лингвосферы (www.linguasphere.net). В настоящее время доступ к полной он-лайновой версии “Реестра” платный, однако в течение 2001 г. планируется сделать доступ ко всему Реестру свободным (и в html-формате).

     Важно подчеркнуть, что Обсерватория Лингвосферы не является закрытой организацией, а “Реестр Лингвосферы” предназначен далеко не только для специалистов (любой человек в той или иной мере является специалистом по тем языкам, на которых он говорит). В связи с этим, Обсерватория Лингвосферы приглашает к сотрудничеству как организации, так и частных лиц — всех, кому небезразлично состояние языков в современном мире. По мнению Д.Долби, участие самых широких кругов специалистов является крайне желательным и поможет проекту по изучению лингвосферы стать подлинно транснациональным, т.е. развивающимся на пересечении национальных границ и независимо от каких-либо границ или контроля со стороны конкретных государств.

     Замечания по усовершенствованию “Реестра”, а также отзывы и комментарии, можно присылать Д.Долби по адресу dalby@aol.com.

     * * *

     В заключение для большей наглядности мы для сравнения приводим полностью характеристику одного языка (аварского) в каждом из двух справочников.

     Этнолог:

    Раздел Europe / Russia, Europe (европейская часть России)

    AVAR (AVARO, DAGESTANI) [AVR] 601,000 in the former USSR, including 44,000 in Azerbaijan (1989 census); 959 in Kazakhstan; (1993 UBS), 98% speak it as mother tongue. Southern Dagestan ASSR and southern Azerbaijan, Terek and Sulak river areas. Also in Turkey. North Caucasian, Northeast, Avaro-Andi-Dido, Avar. Dialects: SALATAV, KUNZAKH (XUNZAX), KELEB, BACADIN, UNTIB, SHULANIN, KAXIB, HID, ANDALAL-GXDATL, KARAX (KARAKH), BATLUX, ANCUX (ANTSUKH), ZAKATALY (CHAR). Has literary status based on northern dialect, Kunzakh, which is used in Dagestan and as the lingua franca among speakers of the Avar group of languages. Education in it for the first two years except in the cities. Newspapers. Cyrillic alphabet is used. North Caucasian is also called 'Caucasian'. Language of wider communication. Sunni Muslim. Bible portions 1979-1996. Work in progress.

     

    Реестр Лингвосферы:

     

    Сектор 4=Евразия, геозона 42=Кавказ, отряд NOXCHIIN+ AVAR, звено AVAR+ LAK, ячейка AVAR+ DIDOI. Является самостоятельным внешним языком.

    42-BBA-a

    Avar

    avaro, daghestani ЕCaucasus-E. mountains

    Russian Fed.: Russsia (Dagestan); Azerbaijan U

    5

    42-BBA-aa

    avar-N.

    ЕDagestan-S. Highland

    Russian (Dagestan)

    5

    42-BBA-aaa

    - avar-F.

    "literary" avar & Cyrillic script; Khunzakh model

    (Dagestan-S.)

     

    42-BBA-aab

    salatav

    avar-NW.

    (Dagestan-S.)

     

    42-BBA-aac

    khunzakh

    xunzax, chunzach, avar-CN., "vehicular" avar ЕKhunzakh & environs

    (Dagestan-S.)

     

    42-BBA-aad

    avar-NE.

     

    (Dagestan-S.)

     

    42-BBA-ab

    avar-C.

    "transitional" avar C transition between Avar-N. & Avar-S.

    Russia (Dagestan)

    5

    42-BBA-aba

    keleb

     

    (Dagestan-S.)

     

    42-BBA-abb

    bachadin

    bacadin

    (Dagestan-S.)

     

    42-BBA-abc

    untib

     

    (Dagestan-S.)

     

    42-BBA-abd

    shulanin

    shulani Å Shulani

    (Dagestan-S.)

     

    42-BBA-abe

    kachib

    kaxib ЕKachib & environs

    (Dagestan-S.)

     

    42-BBA-ac

    avar-S.

     

    Azerbaijan

    5

    42-BBA-aca

    hid

     

    Azerbaijan-N.

     

    42-BBA-acb

    andalal+ gkhdatl

    andalal+ gxadatl

    Azerbaijan-N.

     

    42-BBA-acc

    karakh

    karax

    Azerbaijan-N.

     

    42-BBA-acd

    antsukh

    ancux

    Azerbaijan-N.

     

    42-BBA-ace

    batlukh

    batlux

    Azerbaijan-N.

     

    42-BBA-acf

    car

    char ЕZakataly & environs

    Azerbaijan-N.

     

    В целом, характеристика языков Кавказа (и многих других языков России) не является сильным местом ни в одном из справочников. В связи с этим, актуален вопрос об участии в соответствующих проектах специалистов из России.

    ----

    Yuri Koryakov, Timur Maisak

    Systematics of languages and existing on-line databases

    Although much attention in linguistic studies has been paid to classifying languages on different bases (genetic, areal, typological, etc.), less has been done in the field of creating a unique referential system of taxonomy. There is no reason why systematics of languages should not meet th esam erequirements, as e.g. the biological systematics, i.e. it should have a strictl hierarchical organization, a well-defined system of taxons, and a universal system of names for its objects (compare Latin binary names for species, like Felis domesticus, in zoology). In the present paper, a number of parameters for evaluating existent catalogues of languages of the world is proposed. Two most fundamental catalogues are described according to these parameters: Ethnologue: Languages of the Worl (1996), and The Linguasphere Register of the World's Languages and Speech Communities (2000); they are also the only two databases available on the web.


This page is a part of Lingvarium project website www.lingvarium.org

 

Supported by Linguistic Community Mastered by: Yuri Koryakov e-mail: lingvarium @ gmail.com

Яндекс цитирования

Created on Spring, 2001 ¦ Last updated on Jan, 11, 2008 14:55