Хельмут Рихтер

 

Знаки кантилляции в иврите и их кодировка.

 

http://www.mechon-mamre.org/c/hr

 

III. Коды символов

 

http://www.mechon-mamre.org/c/hr/codes.htm

 

Знаки кантилляции в современных системах кодирования символов

 

Здесь приводится представление знаков кантилляции в двух системах кодирования:

 

в Юникоде, унифицированной системе кодирования символов, используемой во всем мире. По-видимому, когда в Юникоде присваивались коды знакам кантилляции, за основу была принята Израильская система кодирования SI 1311-2, коды которой меньше кодов Юникода на постоянную величину равную 0x04f0 [1], см. таблицу их сравнения. При этом в таблицы Юникода была привнесена существенная неоднозначность при определении двух символов. На этом веб-сайте отдельная глава весьма подробно обсуждает эту проблему, а также два других, не очень существенных замечания в надежде, что это поможет ликвидировать эти неоднозначности.

 

в системе кодирования Michigan-Claremont Coding, используемой в собрании машиночитаемых библейских текстов. Основные принципы этой системы объяснены в Мичиганском руководстве. Что касается кодирования знаков кантилляции, то создается впечатление, что скорее всего коды присвоены этим знакам произвольно; основной идеей является облегчить запоминание кодов в зависимости от формы и положения знаков.

 

Когда дело доходит до вопроса, каким образом знаки кантилляции представлены в этих системах кодирования символов, мы должны иметь в виду важное различие:

 

Знак кантилляции – это диакритический символ, присоединяемый к букве или слову. Он характеризуется формой и положением относительно буквы или слова, к которым он присоединяется.

 

Символ кантилляции состоит из одного или двух знаков кантилляции. Он характеризуется своим значением      и правилами использования этого символа в данном контексте.

 

Если конкретней, то если знаки имеют ту же форму и положение, но разные значения, как типха, тарха и мэайла, они считаются одним и тем же знаком, но различными символами.

 

Далее, при кодировании символов можно принять одну из следующих стратегий:

 

1.      Коды присваиваются знакам независимо от их значения и сочетания в символах. Это также относится к любому знаку, который может встречаться только в сочетании с другим знаком при образованиии символа.

 

2.      Коды присваиваются символам. Соответствующие знаки тогда должны быть получены с помощью декодирования в процессе визуализации символов.

 

3.      Коды присваиваются знакам, но в зависимости от того, компонентами каких символов они являются.

 

Каждый из этих способов имеет свои достоинства и недостатки. Если сконцентрировать внимание на знаках, то это облегчает чтение и запись ( т.е. преобразование письменного или печатного текста и его закодированного представления друг в друга), но осложняет обработку содержания закодированного текста. Иметь дело с нарушениями стандартных правил использования символов гораздо легче, если закодированы только знаки; это предоставляет возможность кодировать тексты, даже если сочетания знаков не всегда образуют значимые символы; действуя именно в таком духе, Мичиганское руководство настаивает: «Кодировать то, что написано, а не то, что имеется в виду».

 

Оба этих кодирования, сведенные в одну таблицу [2], следуют первой из этих стратегий, причем код системы Michigan-Claremont имеет несколько отличий в духе стратегии 3. Поэтому иногда существует более одного значения кода Michigan-Claremont, соответствующего одному и тому же значению кода Юникода.

 

Поскольку обе этих системы кодируют знаки, а не символы, был разработан новый нестандартный код для символов и их компонентов специально для настоящего очерка. Без такого кода было бы очень трудно и неудобно пользоваться таблицами символов. Этот код может также служить основой нестандартного использования знаков стандартного кода в тех случаях, когда необходимо отличить знаки друг от друга согласно стратегии 3. Описание этой нестандартной системы кодирования приводится в следующем разделе вместе с объяснением того, по каким правилам символы обозначались сокращениями, используемыми в главе о синтаксисе.

 

Систематический код, отражающий семантику символов.

 

Обе доступные широкой публике стандартные системы кодирования знаков кантилляции, обсуждаемые в этой статье, кодируют знаки вне зависимости от комбинации символов и независимо от семантики символов. Описание синтаксиса, напротив, показало, что один и тот же знак может быть частью различных символов (например легарме (= пасек) может быть частью символа шальшелет гадоль, мапах легарме и нескольких других), а тот же символ может иметь различную семантику (например в 3 книгах ревиа может быть царем или князем, а мапах легарме может иметь три возможных ранга). Когда такие различия важны, нужен отражающий их код.

 

Предлагаемый ниже код разработан для того, чтобы создать критерий сортировки для таблиц, приводимых в этой статье. Однако он может также использоваться в текстах, содержащих знаки кантилляции, если необходимо учитывать более тонкие различия знаков, чем просто их различия по форме и положению, например когда пишется программа для выявления семантических различий любого конкретного знака. Он также может использоваться вместе с Юникодом, если значения его кодов разместить в пределах одного из диапазонов, зарезервированных в Юникоде для частного использования, например диапазона U+E100 – U+E1FF.

 

При создании кода автор основывался на следующих принципах:

 

Код использует два шестнадцатиричных разряда, т.е. значения от 00 до FF; таким образом максимально возможное число кодов – 256.

 

Самым крупным делением значений кодов является деление между 21 книгой (коды от 00 до 7F) и 3 книгами (коды от 80 до FF).

 

Следующим является деление между разделительными символами (коды от 00 до 5B и от 80 до DB) и соединительными символами (коды от 60 до 7B и от E0 до FB); остальные значения кодов зарезервированы на случай, если кто-то захочет включить в этот же код три символа, которые не являются символами кантилляции, но могут влиять на их положение, а именно пасек, маккеф, метег.

 

Коды, присвоенные разделительным символам, делятся на непрерывные блоки в соответствии с рангами символов: сначала идут императоры, затем цари, князья и наместники.

 

В пределах разделительных знаков блоки из четырех последовательных значений кодов, вторая цифра первого из которых равна 0, 4, 8 или C, присваиваются парам взаимозаменяемых символов кантилляции (показанных в фигурных скобках на синтаксических схемах).

 

Во всем коде каждая пара последовательных значений, начинающаяся с четного числа (вторая цифра равна 0, 2, 4, 6, 8, А, С или Е) присвоена одному символу кантилляции.

 

Где только возможно, символам, связанным друг с другом, особенно если символ низшего ранга служит исключительно одному символу высшего ранга, присваиваются значения кода, отстоящие друг от друга на расстояние кратное 20 [3], чтобы на следующей схеме они располагались на одной и той же горизонтали.

 

21 книга

3 книги

разделительный

coед.

разделительный

coед.

00  SoP0

20  Rvi2

   

60  Mun

80  SoP0

A0  RvG2

   

E0  Mun

   

   

   

   

44  Paz3

   

84  OYr1

A4  RvQ2

C4  Paz3

E4  AtH

46  QaP3

66  Glg

86  AzL1

E6  Glg

08  Atn0

   

48  TlG3

68  Mer

88  Atn1

A8  Dhi2

   

E8  Mer

   

8A  Paz1

AA  MpL2

EA  MrM

   

   

   

6C  TlQ

8C  Rvi1

   

   

EC  ShQ

6E  May

EE  Tar

10  Sgl1

30  Zar2

50  Ger3

70  Qad

   

B0  Tsi2

D0  AzL3

F0  Qad

12  Sha1

52  Grm3

   

D2  MpL3

F2  Ill

14  ZqQ1

34  Psh2

   

74  Mhp

94  RvM1

   

   

F4  Mhp

16  ZqG1

36  Ytv2

   

F6  MpM

18  Tip1

38  Tvr2

58  Lgm3

78  MeK

98  ShG1

   

   

   

7A  Dar

   

   

   

   

7C  Mf

9C  MpL1

   

   

FC  Mf

5E  Pq

7E  Mg

DE  Pq

FE  Mg

 

Сформулированные выше правила присваивают четные значения кода символам. Если символ состоит из двух знаков, то первичный знак получает код с тем же значением, а значение кода вторичного знака – на единицу блоьше. Первичный знак определяется следующим образом:

 

    Для символов, состоящих из обязательного и необязательного знака (т.е. знака, который не всегда присутствует), первичным является обязательный знак.

 

    Для символов, состоящих из двух обязательных знаков, первичным является знак, который ставится на согласной ударного слога.

 

На приведенной выше схеме кодирования использованы те же самые сокращения символов, что и на синтаксических диаграммах. Список символов, для которых используются эти сокращения, приведен в таблицах. Кроме того, там будут определены подобные сокращения для знаков. Эти сокращения вводились по следующим принципам:

 

Сокращения знаков пасек, маккеф и метег состоят из первой и последней букв имени. Сокращения символов кантилляции начинается с трех букв имени. Первая буква каждого слова на иврите в сокращении показана как заглавная буква. Латинская буква “e”, которая ставится вместо шва, (например буква “e” в слове “Revia”) не будет использоваться в сокращениях.

 

Сокращения соединительных символов состоят только из этих трех букв; сокращения разделительных символов  состоят из этих трех букв, за которыми следует число, означающее ранг, что ниже показано в таблице.

 

Сокращение знака состоит из сокращения символа, к которому он относится, а за ним следует буква, показывающая положение знака (см. [ниже], Условные обозначения, Положение). Эта дополнительная буква опускается, когда символ состоит только из одного знака.

 

В следующей таблице показано, как ранг символов обозначается цифрами в сокращениях, а также цветами, как на синтаксических диаграммах, так и в таблицах:

 

Сокр.

ранг символа

xxx0

завершающий император

xxx0

император, не являющийся завершающим

xxx1

царь, не являющийся завершающим

xxx1

завершающий царь

xxx1

царь после знака этнах (только 3 книги)

xxx2

князь, не являющийся завершающим

xxx2

завершающий князь

xxx3

наместник, не являющийся завершающим

xxx3

завершающий наместник

xxx

слуга = соединительный символ

xx

другой знак

 

Условные обозначения для таблиц

 

СК =                               нестандартный код как для символов, так и для знаков

систематический код    кантилляции на основе их семантики.

 

                                        Основная идея и принципы кодирования объяснены выше.

 

Сокр. =                           сокращение, используемое как в таблицах кодирования, так и для

Сокращение                   описания синтаксиса.

 

                                         Как цифра в сокращении, так и цвет фона указывают на ранг

                                         символа. Выше приведено подробное объяснение.

 

Положение                    положение знака (знаков) относительно текста.

 

                                         Положение знака характеризуется двумя параметрами: его местом

                                         в слове и его положением относительно буквы. Для первого из

                                         этих параметров используются следующие коды:

 

                                         коды для знаков и для символов, состоящих только из одного

                                         знака:

 

                                         а      знак перед словом, не дающий никакой информации об

                                                 ударении

 

                                         b      знак на безударном слоге

 

                                         c      знак на первой согласной ударного слога

 

                                         d      знак после слова; указывает, что ударение на последнем

                                                 слоге, если отсутствует другой знак

 

                                         e      знак после слова, не дающий никакой информации об

                                                 ударении

 

                                         комбинации кодов для символов, состоящих из двух знаков:

 

                                         ac    знаки a и c, оба обязательны

 

                                         a(c) знак a перед словом, не дающий никакой информации об

                                                ударении, изредка дополнительный знак c на ударном слоге

 

                                         bc   знаки b и c, оба обязательны; в основном они ставятся на

                                                одном и том же слове, но иногда b ставится на предыдущем

                                                слове

 

                                         (b)c знаки b и c как правило ставятся на одном и том же слове, но

                                                иногда b ставится на предыдущем слове или отсутствует

 

                                         (c)d если ударение на последнем слоге, ставится только знак d; в

                                                противном случае, ставятся два знака: c и d.

 

                                         ce    знаки c и e, оба обязательны

 

                                         (c)e знак e после слова, не дающий никакой информации об

                                                ударении, изредка дополнительный знак c на ударном слоге

 

                                         Кроме того, коды в таблице знаков содержат указание на

                                         положение знака относительно буквы, на которую он ставится: a

                                         означает «над», а b означает «под»; необязательные буквы l и r

                                         обозначают соответственно «слева» и «справа», а буква f означает,

                                         что знак – завершающий (помещается после слова подобно знаку,

                                         означающему пробел или пробелы).

 

                                         Информация, которую можно извлечь из этих кодов, дополняется

                                         символом в следующей колонке. Там пространство, занятое всем

                                         словом, изображено серым прямоугольником, так что знак справа

                                         или слева от этого прямоугольника обозначает соответственно

                                         знак перед или после всего слова. Если символ состоит из двух

                                         знаков, их положение показано красным и голубым цветом

                                         следующим образом:

 

                                         В таблице знаков кантилляции красный значок показывает

                                             положение знака, о котором идет речь, а голубой значок

                                             показывает положение другого знака, с которым этот знак

                                             сочетается, образуя символ.

 

                                          В таблице символов кантилляции красный значок показывает

                                             положение первичного знака (обычно знака, ставящегося на

                                             согласную ударного слога).

 

Форма                             форма знаков без указания, где они расположены относительно

                                          текста

 

                                          В последовательности, состоящей из двух знаков, знаки читаются

                                          справа налево. Например, если код положения ac, то знак в

                                          положении a показывается справа от знака в положении c.

 

Имя                                  имя символа или знака

 

                                          В таблице знаков кантилляции имя знака дается, если знак имеет

                                            собственное имя; в противном случае, дается имя символа. Это

                                            может привести к ситуации, которая подобна например

                                            следующей: символ соф пасук состоит из двух знаков; один из

                                            них (силлук) имеет свое собственное имя, а другой – нет, и в

                                            таблице он назван соф пасук. В любом случае дается

                                            только одно имя знака, даже если у него есть и другие имена.

 

                                         В таблице символов кантилляции одна колонка таблицы

                                            содержит один или несколько синонимов или различных

                                            написаний имени символа кириллицей; другая  колонка

                                            содержит одно из этих имен (необязательно первое в первой из

                                            колонок), написанное шрифтом языка иврит.

 

MK                                  значение кода в системе кодирования Michigan-Claremont

 

Юникод                         значение кода знака в Юникоде

 

Имя в Юникоде           имя знака в Юникоде

 

Примечания переводчика

---------------------------------

[1] 0x04f0 – это обозначение числа 1264 в шестнадцатиричной системе счисления.

[2] См. последняя таблица в следующей главе.

[3] 20 в шестнадцатиричной системе счисления – это 32 в десятичной.