mirror of
https://github.com/symbl-cc/symbl-data.git
synced 2025-10-27 11:41:10 -04:00
38 lines
1.8 KiB
Plaintext
38 lines
1.8 KiB
Plaintext
Несмотря на своё название (joiner), этот символ не объединяет, а скорее разъединяет соседние символы.
|
||
|
||
Он заставляет алгоритмы, обрабатывающие текст, рассматривать два символа отдельно, тогда как в некоторых случаях они могут быть различным образом объединены.
|
||
Один из примеров — сортировка.
|
||
Вот несколько английских слов, упорядоченных по алфавиту:
|
||
|
||
[[[code
|
||
address
|
||
bomb
|
||
cat
|
||
cheese
|
||
digit
|
||
]]]
|
||
|
||
Однако, если мы будем рассматривать эти слова с точки зрения чешского языка, то сортировка по алфавиту будет следующей:
|
||
|
||
[[[code
|
||
address
|
||
bomb
|
||
cat
|
||
digit
|
||
cheese
|
||
]]]
|
||
|
||
С первого взгляда неожиданно.
|
||
Одно слово, начинающееся на [code c], выше слова на [code d], а другое (также начинающееся на [code c]), ниже.
|
||
На самом деле буквы [code c] и [code h] образуют [http://en.wikipedia.org/wiki/Ch_%28digraph%29#Czech диграф], который рассматривается в чешском языке как одна буква, которая имеет порядок, отличный от [code c].
|
||
|
||
Если же между c и h вставить CGJ, то слово будет выглядеть по прежнему (сам объединитель не имеет графического представления), но сортировка будет работать более привычно:
|
||
|
||
[[[code
|
||
address
|
||
bomb
|
||
cat
|
||
cheese
|
||
digit
|
||
]]]
|