mirror of
				https://github.com/symbl-cc/symbl-data.git
				synced 2025-11-03 22:13:19 -05:00 
			
		
		
		
	
		
			
				
	
	
		
			38 lines
		
	
	
		
			1.8 KiB
		
	
	
	
		
			Plaintext
		
	
	
	
	
	
			
		
		
	
	
			38 lines
		
	
	
		
			1.8 KiB
		
	
	
	
		
			Plaintext
		
	
	
	
	
	
Несмотря на своё название (joiner), этот символ не объединяет, а, скорее, разъединяет соседние символы.
 | 
						||
 | 
						||
Он заставляет алгоритмы, обрабатываюшие текст, рассматривать два символа отдельно, тогда как в некоторых случаях они могут быть различным образом объеденены.
 | 
						||
Один из примеров - сортировка.
 | 
						||
Вот несколько английских слов, упорядоченных по алфавиту:
 | 
						||
 | 
						||
[[[code
 | 
						||
address
 | 
						||
bomb
 | 
						||
cat
 | 
						||
cheese
 | 
						||
digit
 | 
						||
]]]
 | 
						||
 | 
						||
Однако, если мы будем рассматривать эти слова с точки зрения чешского языка, то сортировка по алфавиту будет следующей:
 | 
						||
 | 
						||
[[[code
 | 
						||
address
 | 
						||
bomb
 | 
						||
cat
 | 
						||
digit
 | 
						||
cheese
 | 
						||
]]]
 | 
						||
 | 
						||
С первого взгляда неожиданно.
 | 
						||
Одно слово, начинающееся на [code c], выше слова на [code d], а другое (также начинающееся на [code c]), ниже.
 | 
						||
На самом деле буквы [code c] и [code h] образуют [http://en.wikipedia.org/wiki/Ch_%28digraph%29#Czech диграф], который рассматривается в чешском языке, как одна буква, которая имеет порядок, отличный от [code c].
 | 
						||
 | 
						||
Если же между c и h вставить CGJ, то слово будет выглядеть по прежнему (сам объеденитель не имеет графического представления), но сортировка будет работать более привычно:
 | 
						||
 | 
						||
[[[code
 | 
						||
address
 | 
						||
bomb
 | 
						||
cat
 | 
						||
cheese
 | 
						||
digit
 | 
						||
]]]
 |