Хельмут
Рихтер
Знаки кантилляции в
иврите и их
кодировка.
http://www.mechon-mamre.org/c/hr
III.
Коды
символов
http://www.mechon-mamre.org/c/hr/codes.htm
Знаки
кантилляции
в
современных
системах
кодирования
символов
Здесь
приводится
представление
знаков кантилляции
в двух
системах
кодирования:
● в Юникоде,
унифицированной
системе
кодирования
символов,
используемой
во всем мире.
По-видимому,
когда в
Юникоде
присваивались
коды знакам
кантилляции,
за основу
была принята
Израильская
система
кодирования
SI 1311-2, коды
которой
меньше кодов
Юникода на
постоянную
величину
равную 0x04f0 [1], см. таблицу
их сравнения. При этом
в таблицы
Юникода была
привнесена
существенная
неоднозначность
при определении
двух
символов. На
этом
веб-сайте отдельная
глава
весьма
подробно
обсуждает
эту проблему,
а также два
других, не
очень
существенных
замечания в
надежде, что
это поможет
ликвидировать
эти
неоднозначности.
● в системе
кодирования Michigan-Claremont Coding,
используемой
в собрании
машиночитаемых
библейских
текстов.
Основные
принципы
этой системы
объяснены в Мичиганском
руководстве. Что
касается
кодирования
знаков
кантилляции,
то создается
впечатление,
что скорее всего
коды
присвоены
этим знакам
произвольно;
основной
идеей
является
облегчить
запоминание
кодов в
зависимости
от формы и
положения
знаков.
Когда
дело доходит
до вопроса,
каким образом
знаки
кантилляции
представлены
в этих системах
кодирования
символов, мы
должны иметь
в виду важное
различие:
● Знак
кантилляции – это
диакритический
символ,
присоединяемый
к букве или
слову. Он
характеризуется
формой и
положением
относительно
буквы или слова,
к которым он
присоединяется.
● Символ
кантилляции состоит
из одного или
двух знаков
кантилляции.
Он
характеризуется
своим
значением и
правилами
использования
этого
символа в
данном
контексте.
Если
конкретней,
то если знаки
имеют ту же форму
и положение,
но разные
значения, как
типха, тарха
и мэайла, они
считаются
одним и тем
же знаком, но
различными
символами.
Далее,
при
кодировании
символов
можно принять
одну из
следующих
стратегий:
1.
Коды
присваиваются
знакам
независимо
от их
значения и
сочетания в
символах. Это
также
относится к
любому знаку,
который
может встречаться
только в
сочетании с
другим
знаком при
образованиии
символа.
2.
Коды
присваиваются
символам.
Соответствующие
знаки тогда
должны быть
получены с помощью
декодирования
в процессе
визуализации
символов.
3.
Коды
присваиваются
знакам, но в
зависимости
от того,
компонентами
каких
символов они
являются.
Каждый из
этих
способов
имеет свои
достоинства
и недостатки.
Если
сконцентрировать
внимание на
знаках, то
это
облегчает
чтение и
запись ( т.е.
преобразование
письменного
или
печатного
текста и его
закодированного
представления
друг в друга),
но осложняет
обработку
содержания
закодированного
текста. Иметь
дело с
нарушениями
стандартных
правил использования
символов
гораздо
легче, если
закодированы
только знаки;
это предоставляет
возможность
кодировать
тексты, даже
если сочетания
знаков не
всегда
образуют
значимые
символы;
действуя
именно в
таком духе,
Мичиганское
руководство
настаивает:
«Кодировать
то, что написано,
а не то, что имеется
в виду».
Оба этих
кодирования,
сведенные в
одну таблицу
[2], следуют
первой из
этих стратегий,
причем код
системы Michigan-Claremont
имеет несколько
отличий в
духе
стратегии 3.
Поэтому иногда
существует
более одного
значения кода
Michigan-Claremont,
соответствующего
одному и тому
же значению
кода Юникода.
Поскольку
обе этих
системы
кодируют
знаки, а не
символы, был
разработан
новый нестандартный
код для
символов и их
компонентов
специально
для
настоящего
очерка. Без
такого кода
было бы очень
трудно и
неудобно
пользоваться
таблицами
символов.
Этот код
может также
служить
основой нестандартного
использования
знаков
стандартного
кода в тех
случаях,
когда
необходимо
отличить
знаки друг от
друга
согласно стратегии
3. Описание
этой
нестандартной
системы
кодирования
приводится в
следующем разделе
вместе с
объяснением
того, по
каким
правилам символы
обозначались
сокращениями,
используемыми
в главе о
синтаксисе.
Систематический
код,
отражающий
семантику
символов.
Обе
доступные
широкой
публике
стандартные
системы
кодирования
знаков
кантилляции,
обсуждаемые
в этой
статье,
кодируют знаки
вне
зависимости
от
комбинации
символов и
независимо
от семантики
символов.
Описание
синтаксиса,
напротив,
показало, что
один и тот же
знак может
быть частью
различных
символов
(например
легарме (=
пасек) может
быть частью
символа
шальшелет
гадоль, мапах
легарме и
нескольких
других), а тот
же символ может
иметь
различную
семантику
(например в 3
книгах ревиа
может быть
царем или
князем, а
мапах
легарме
может иметь
три возможных
ранга). Когда
такие
различия
важны, нужен
отражающий
их код.
Предлагаемый
ниже код
разработан
для того,
чтобы
создать
критерий
сортировки
для таблиц,
приводимых в
этой статье.
Однако он
может также
использоваться
в текстах,
содержащих
знаки кантилляции,
если
необходимо
учитывать более
тонкие
различия
знаков, чем
просто их различия
по форме и
положению,
например когда
пишется
программа
для
выявления
семантических
различий
любого
конкретного
знака. Он также
может
использоваться
вместе с
Юникодом,
если
значения его
кодов
разместить в
пределах
одного из
диапазонов,
зарезервированных
в Юникоде для
частного
использования,
например
диапазона U+E100 – U+E1FF.
При
создании
кода автор
основывался
на следующих
принципах:
●
Код
использует
два
шестнадцатиричных
разряда, т.е.
значения от 00
до FF; таким
образом
максимально
возможное
число кодов – 256.
●
Самым
крупным
делением
значений
кодов является
деление
между 21
книгой (коды
от 00 до 7F) и 3
книгами (коды
от 80 до FF).
●
Следующим
является
деление
между разделительными
символами
(коды от 00 до 5B и от 80
до DB) и
соединительными
символами
(коды от 60 до 7B и от E0 до FB);
остальные
значения
кодов
зарезервированы
на случай,
если кто-то
захочет
включить в
этот же код
три символа,
которые не
являются
символами
кантилляции,
но могут
влиять на их
положение, а
именно пасек,
маккеф,
метег.
●
Коды,
присвоенные
разделительным
символам,
делятся на
непрерывные
блоки в
соответствии
с рангами
символов:
сначала идут
императоры,
затем цари,
князья и
наместники.
● В
пределах
разделительных
знаков блоки
из четырех
последовательных
значений кодов,
вторая цифра
первого из
которых
равна 0, 4, 8 или C,
присваиваются
парам
взаимозаменяемых
символов
кантилляции
(показанных в
фигурных
скобках на синтаксических
схемах).
● Во
всем коде
каждая пара
последовательных
значений,
начинающаяся
с четного
числа (вторая
цифра равна 0, 2,
4, 6, 8, А, С или Е)
присвоена одному
символу
кантилляции.
●
Где только
возможно,
символам,
связанным друг
с другом,
особенно
если символ
низшего ранга
служит
исключительно
одному символу
высшего
ранга,
присваиваются
значения кода,
отстоящие
друг от друга
на расстояние
кратное 20 [3],
чтобы на
следующей
схеме они
располагались
на одной и
той же
горизонтали.
21 книга |
3 книги |
||||||
разделительный |
coед. |
разделительный |
coед. |
||||
00 SoP0 |
20 Rvi2 |
|
60 Mun |
80 SoP0 |
A0 RvG2 |
|
E0 Mun |
|
|
||||||
|
|
44 Paz3 |
|
84 OYr1 |
A4 RvQ2 |
C4 Paz3 |
E4 AtH |
46 QaP3 |
66 Glg |
86 AzL1 |
E6 Glg |
||||
08 Atn0 |
|
48 TlG3 |
68 Mer |
88 Atn1 |
A8 Dhi2 |
|
E8 Mer |
|
8A Paz1 |
AA MpL2 |
EA MrM |
||||
|
|
|
6C TlQ |
8C Rvi1 |
|
|
EC ShQ |
6E May |
EE Tar |
||||||
10 Sgl1 |
30 Zar2 |
50 Ger3 |
70 Qad |
|
B0 Tsi2 |
D0 AzL3 |
F0 Qad |
12 Sha1 |
52 Grm3 |
|
D2 MpL3 |
F2 Ill |
|||
14 ZqQ1 |
34 Psh2 |
|
74 Mhp |
94 RvM1 |
|
|
F4 Mhp |
16 ZqG1 |
36 Ytv2 |
|
F6 MpM |
||||
18 Tip1 |
38 Tvr2 |
58 Lgm3 |
78 MeK |
98 ShG1 |
|
|
|
7A Dar |
|
||||||
|
|
|
7C Mf |
9C MpL1 |
|
|
FC Mf |
5E Pq |
7E Mg |
DE Pq |
FE Mg |
●
Сформулированные
выше правила
присваивают
четные значения
кода символам.
Если символ
состоит из
двух знаков,
то первичный знак
получает
код с тем же
значением, а
значение кода
вторичного
знака – на
единицу
блоьше. Первичный
знак
определяется
следующим образом:
○ Для
символов,
состоящих из
обязательного
и необязательного
знака (т.е.
знака,
который не
всегда
присутствует),
первичным
является
обязательный
знак.
○ Для
символов,
состоящих из
двух
обязательных
знаков,
первичным
является
знак, который
ставится на
согласной
ударного
слога.
На
приведенной
выше схеме
кодирования
использованы
те же самые
сокращения
символов, что
и на синтаксических
диаграммах.
Список
символов, для
которых
используются
эти
сокращения,
приведен в таблицах.
Кроме того,
там будут
определены
подобные сокращения
для знаков.
Эти
сокращения
вводились по
следующим
принципам:
●
Сокращения
знаков пасек,
маккеф и
метег состоят
из первой и
последней букв
имени.
Сокращения
символов
кантилляции
начинается с
трех букв
имени. Первая
буква
каждого
слова на
иврите в
сокращении
показана как
заглавная
буква.
Латинская
буква “e”,
которая
ставится
вместо шва, (например
буква “e” в
слове “Revia”) не
будет
использоваться
в
сокращениях.
●
Сокращения
соединительных
символов состоят
только из
этих трех
букв;
сокращения разделительных
символов
состоят из этих
трех букв, за
которыми
следует
число, означающее
ранг, что
ниже
показано в
таблице.
●
Сокращение
знака
состоит из
сокращения символа,
к которому он
относится, а
за ним следует
буква,
показывающая
положение
знака (см.
[ниже],
Условные
обозначения,
Положение).
Эта
дополнительная
буква
опускается,
когда символ
состоит
только из
одного знака.
В
следующей
таблице
показано, как
ранг символов
обозначается
цифрами в
сокращениях,
а также
цветами, как
на синтаксических
диаграммах,
так и в таблицах:
Сокр. |
ранг
символа |
xxx0 |
завершающий
император |
xxx0 |
император, не
являющийся
завершающим |
xxx1 |
царь, не
являющийся
завершающим |
xxx1 |
завершающий
царь |
xxx1 |
царь после
знака этнах
(только 3
книги) |
xxx2 |
князь, не
являющийся
завершающим |
xxx2 |
завершающий
князь |
xxx3 |
наместник, не
являющийся
завершающим |
xxx3 |
завершающий
наместник |
xxx |
слуга = соединительный
символ |
xx |
другой знак |
Условные
обозначения
для таблиц
СК =
нестандартный
код как для
символов, так
и для знаков
систематический
код
кантилляции
на основе их
семантики.
Основная
идея и
принципы
кодирования
объяснены выше.
Сокр.
=
сокращение,
используемое
как в таблицах
кодирования,
так и для
Сокращение
описания синтаксиса.
Как
цифра в
сокращении,
так и цвет
фона
указывают на
ранг
символа.
Выше
приведено
подробное
объяснение.
Положение
положение
знака
(знаков)
относительно
текста.
Положение
знака
характеризуется
двумя
параметрами:
его местом
в слове и
его
положением
относительно
буквы. Для
первого из
этих
параметров используются
следующие
коды:
коды для
знаков и для
символов,
состоящих только
из одного
знака:
а
знак перед
словом, не дающий
никакой
информации
об
ударении
b
знак на
безударном
слоге
c
знак на
первой
согласной
ударного слога
d
знак после
слова;
указывает,
что ударение
на последнем
слоге, если
отсутствует
другой знак
e
знак после
слова, не
дающий никакой
информации
об
ударении
комбинации
кодов для
символов,
состоящих из
двух знаков:
ac
знаки a и c,
оба
обязательны
a(c) знак a перед
словом, не
дающий
никакой
информации
об
ударении,
изредка
дополнительный
знак c на
ударном
слоге
bc
знаки b и c,
оба
обязательны;
в основном
они ставятся
на
одном и том
же слове, но
иногда b ставится
на
предыдущем
слове
(b)c
знаки b и c как
правило
ставятся на
одном и том
же слове, но
иногда b ставится
на
предыдущем
слове или
отсутствует
(c)d
если
ударение на
последнем
слоге,
ставится только
знак d;
в
противном
случае,
ставятся два
знака: c и d.
ce
знаки c и e,
оба
обязательны
(c)e
знак e после
слова, не дающий
никакой
информации
об
ударении,
изредка
дополнительный
знак c на
ударном
слоге
Кроме того,
коды в
таблице знаков
содержат
указание на
положение
знака
относительно
буквы, на
которую он
ставится: a
означает
«над», а b
означает
«под»;
необязательные
буквы l и r
обозначают
соответственно
«слева» и
«справа», а
буква f
означает,
что знак –
завершающий
(помещается
после слова
подобно
знаку,
означающему
пробел или
пробелы).
Информация,
которую
можно
извлечь из
этих кодов, дополняется
символом в
следующей
колонке. Там
пространство,
занятое всем
словом,
изображено
серым прямоугольником,
так что знак
справа
или слева от
этого
прямоугольника
обозначает
соответственно
знак перед
или после
всего слова.
Если символ
состоит из
двух
знаков, их
положение
показано
красным и
голубым цветом
следующим
образом:
● В
таблице знаков
кантилляции
красный
значок
показывает
положение
знака, о
котором идет
речь, а
голубой
значок
показывает
положение
другого
знака, с
которым этот
знак
сочетается,
образуя
символ.
● В
таблице символов
кантилляции
красный
значок
показывает
положение
первичного
знака (обычно
знака,
ставящегося
на
согласную
ударного
слога).
Форма
форма
знаков без
указания, где
они
расположены
относительно
текста
В
последовательности,
состоящей из
двух знаков,
знаки
читаются
справа
налево.
Например,
если код
положения ac,
то знак в
положении a
показывается
справа от
знака в
положении c.
Имя
имя символа
или знака
● В
таблице знаков
кантилляции
имя знака
дается, если
знак имеет
собственное
имя; в
противном
случае,
дается имя
символа. Это
может
привести к
ситуации,
которая
подобна
например
следующей:
символ соф
пасук состоит
из двух
знаков; один
из
них (силлук)
имеет свое
собственное
имя, а другой –
нет, и в
таблице
он назван соф
пасук. В любом
случае
дается
только одно
имя знака,
даже если у
него есть и
другие имена.
● В
таблице символов
кантилляции
одна колонка
таблицы
содержит
один или
несколько синонимов
или
различных
написаний
имени
символа кириллицей;
другая
колонка
содержит
одно из этих
имен (необязательно
первое в
первой из
колонок),
написанное
шрифтом
языка иврит.
MK
значение
кода в
системе
кодирования Michigan-Claremont
Юникод
значение
кода знака в
Юникоде
Имя в
Юникоде
имя знака в
Юникоде
Примечания
переводчика
---------------------------------
[1] 0x04f0 – это
обозначение
числа 1264 в
шестнадцатиричной
системе
счисления.
[2] См.
последняя
таблица в следующей
главе.
[3] 20 в
шестнадцатиричной
системе
счисления – это
32 в
десятичной.