Шрифты Unicode Русские

Шрифты Unicode Русские 4,5/5 8789 votes

Юникод Шрифты (Unicode UTF-fonts). Paratype.ru/store/webfonts.asp - платные гарнитуры наборного русского шрифта. Русские шрифты. * Все шрифты представлены на сайте исключительно для ознакомления.

Логотип Unicode Consortium Юнико́д (чаще всего) или Унико́д ( Unicode) — стандарт, включающий в себя знаки почти всех письменных мира. В настоящее время стандарт является доминирующим в сети. Стандарт предложен в некоммерческой организацией «Консорциум Юникода» ( Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных систем письменности: в документах, закодированных по стандарту Юникод, могут соседствовать китайские, математические символы, буквы, и, символы музыкальной нотной нотации, при этом становится ненужным переключение. Стандарт состоит из двух основных частей: универсального набора символов ( Universal character set, UCS) и семейства кодировок ( Unicode transformation format, UTF).

Универсальный набор символов перечисляет допустимые по стандарту Юникод символы и присваивает каждому символу код в виде неотрицательного целого числа, записываемого обычно в шестнадцатеричной форме с префиксом U+, например, U+040F. Семейство кодировок определяет способы преобразования кодов символов для передачи в потоке или в файле.

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора, и коды этих символов совпадают с их кодами в ASCII. Далее расположены области символов других систем письменности, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F (см. Консорциум Юникода К концу 1980-х годов стандартом стали 8-битные кодировки, их существовало уже большое множество, и постоянно появлялись новые.

Это объяснялось как расширением круга поддерживаемых языков, так и стремлением создавать кодировки, частично совместимые между собой (характерный пример — появление, обусловленное эксплуатацией западных программ, созданных для кодировки ). В результате появилось несколько проблем:.

проблема неправильной раскодировки;. проблема ограниченности набора символов;. проблема преобразования одной кодировки в другую;. проблема дублирования шрифтов. Проблема неправильной раскодировки вызывала появление в документе символов иностранных языков, не предполагавшихся в документе, или появление не предполагавшихся символов, прозванных русскоязычными пользователями «кракозябрами».

Проблема во многом была вызвана отсутствием стандартизированной формы указания кодировки для файла или потока. Проблему можно было решить либо последовательным внедрением стандарта указания кодировки, либо внедрением общей для всех языков кодировки.

Проблема ограниченности набора символов. Проблему можно было решить либо переключением шрифтов внутри документа, либо внедрением «широкой» кодировки.

Переключение шрифтов издавна практиковалось в, причём часто использовались, т. н. «dingbat fonts». В итоге при попытке переноса документа в другую систему все нестандартные символы превращались в «кракозябры». Проблема преобразования одной кодировки в другую. Проблему можно было решить либо составлением таблиц перекодировки для каждой пары кодировок, либо использованием промежуточного преобразования в третью кодировку, включающую все символы всех кодировок. Проблема дублирования шрифтов. Для каждой кодировки создавался свой шрифт, даже если наборы символов в кодировках совпадали частично или полностью.

Проблему можно было решить путём создания «больших» шрифтов, из которых впоследствии выбирались бы нужные для данной кодировки символы. Однако это требовало создания единого реестра символов, чтобы определять, чему что соответствует. Была признана необходимость создания единой «широкой» кодировки.

Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные. Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 2 16 (65 536). С тех пор символы стали обозначать четырьмя шестнадцатеричными цифрами (например, U+04F0). При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов» ( private use area), которая первоначально занимала коды U+D800U+F8FF. Чтобы использовать Юникод также и в качестве промежуточного звена при преобразовании разных кодировок друг в друга, в него включили все символы, представленные во всех наиболее известных кодировках.

В дальнейшем, однако, было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область. Одновременно с этим, коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов (см. Поскольку в ряде компьютерных систем (например, ) фиксированные 16-битные символы уже использовались в качестве кодировки по умолчанию, было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (так называемая basic multilingual plane, BMP). Остальное пространство используется для «дополнительных символов» ( supplementary characters): систем письма вымерших языков или очень редко используемых иероглифов, математических и музыкальных символов. Для совместимости со старыми 16-битными системами была изобретена система, где первые 65 536 позиций, за исключением позиций из интервала U+D800U+DFFF, отображаются непосредственно как 16-битные числа, а остальные представляются в виде «суррогатных пар» (первый элемент пары из области U+D800U+DBFF, второй элемент пары из области U+DC00U+DFFF). Для суррогатных пар была использована часть кодового пространства (2048 позиций), отведённого «для частного использования». Поскольку в UTF-16 можно отобразить только 2 20+2 16−2048 (1 112 064) символов, то это число и было выбрано в качестве окончательной величины кодового пространства Юникода (диапазон кодов: 0x000000-0x10FFFF).

Хотя кодовая область Юникода была расширена за пределы 2 16 уже в версии 2.0, первые символы в «верхней» области были размещены только в версии 3.1. Роль этой кодировки в веб-секторе постоянно растёт. На начало 2010 доля веб-сайтов, использующих Юникод, составила около 50%. Версии Юникода Работа по доработке стандарта продолжается. Новые версии выпускаются по мере изменения и пополнения таблиц символов.

Параллельно выпускаются новые документы /IEC 10646. Первый стандарт выпущен в 1991 году, последний на данный момент — в 2017, следующий ожидается летом 2018 года. Стандарты версий 1.0—5.0 публиковались как книги, и имеют. Номер версии стандарта составлен из трёх цифр (например, 3.1.1). Третью цифру меняют при внесении в стандарт небольших изменений, не добавляющих новых символов.

База данных символов Юникода доступна для всех версий на официальном сайте как в простом текстовом, так и в XML-формате. Файлы распространяются под BSD-подобной. Версии Юникода Номер версии Дата публикации книги Издание ISO/IEC 10646 Количество Количество символов Изменения 1.0.0 Октябрь 1991 (Vol.1) 24 7161 Изначально Юникод содержал символы следующих письменностей:, и 1.0.1 Июнь 1992 (Vol.2) 25 28 359 Добавлены 20 902 1.1 Июнь 1993 ISO/IEC 10646-1:1993 24 34 233 Добавлено 4306 слогов, дополнивших уже имеющиеся в кодировке 2350 символов.

Удалены символы 2.0 Июль 1996 ISO/IEC 10646-1:1993 и Amendments 5, 6, 7 25 38 950 Удалены добавленные ранее слоги, и добавлены 11 172 новых слога хангыля с новыми кодами. Возвращены удалённые ранее символы; символы получили новые коды и были размещены в разных таблицах. Введён механизм суррогатных ( surrogate) символов. Выделено место для плоскостей ( planes) 2.1 Май 1998 ISO/IEC 10646-1:1993, Amendments 5, 6, 7, два символа из Amendment 18 25 38 952 Добавлен 3.0 Сентябрь 1999 ISO/IEC 10646-1:2000 38 49 259 Добавлены письмо, и, а также символы 3.1 Март 2001 ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001 41 94 205 Добавлены, и, а также символы и музыки, 42 711 3.2 Март 2002 ISO/IEC 10646-1:2000 и Amendment 1 ISO/IEC 10646-2:2001 45 95 221 Добавлены, и 4.0 Апрель 2003 ISO/IEC 52 96 447 Добавлены, и, а также символы 4.1 Март 2005 ISO/IEC и Amendment 1 59 97 720 Добавлены,. Символы были отделены от символов.

Также добавлены и 5.0 Июль 2006 ISO/IEC, Amendments 1, 2, четыре символа из Amendment 3 64 99 089 Добавлены, и 5.1 Апрель 2008 ISO/IEC и Amendments 1, 2, 3, 4 75 100 713 Добавлены,. Добавлены, символы костей для и, (ẞ), а также буквы латиницы, использовавшиеся в средневековых.

Новыми символами дополнен набор символов 5.2 Октябрь 2009 ISO/IEC и Amendments 1, 2, 3, 4, 5, 6 90 107 361 Добавлены, (по, содержащему 1071 символ),. Добавлены 4149 новых (CJK-C), символы, а также расширен набор символов чамо 6.0 Октябрь 2010 ISO/IEC и 93 109 449 Добавлены,. Представление символа «Й» (U+0419) в виде базового символа «И» (U+0418) и комбинируемого символа « ̆» (U+0306) Графические символы в Юникоде подразделяются на протяжённые и непротяжённые (бесширинные).

Непротяжённые символы при отображении не занимают места. К ним относятся, в частности, знаки ударения и прочие.

Как протяжённые, так и непротяжённые символы имеют собственные коды. Протяжённые символы иначе называются базовыми ( base characters), а непротяжённые — комбинируемыми ( combining characters); причём последние не могут встречаться самостоятельно. Например, символ «á» может быть представлен как последовательность базового символа «a» (U+0061) и комбинируемого символа «◌́» (U+0301) или как монолитный символ «á» (U+00E1). Особый тип комбинируемых символов — селекторы варианта начертания ( variation selectors). Они действуют только на те символы, для которых такие варианты определены. К примеру, в версии 5.0 варианты начертания определены для ряда математических символов, для символов традиционного и для символов. Алгоритмы нормализации Поскольку одни и те же символы можно представить различными кодами, сравнение строк байт за байтом становится невозможным.

Алгоритмы нормализации ( normalization forms) решают эту проблему, выполняя приведение текста к определённому стандартному виду. Приведение осуществляется путём замены символов на эквивалентные с использованием таблиц и правил. «Декомпозицией» называется замена (разложение) одного символа на несколько составляющих символов, а «композицией», наоборот, — замена (соединение) нескольких составляющих символов на один символ.

В стандарте Юникода определены четыре алгоритма нормализации текста: NFD, NFC, NFKD и NFKC. NFD NFD, normalization form D («D» от decomposition), форма нормализации D — каноническая декомпозиция — алгоритм, согласно которому выполняется рекурсивное разложение составных символов ( precomposed characters) на последовательность из одного или нескольких простых символов в соответствии с таблицами декомпозиции. Рекурсивное потому, что в процессе разложения составной символ может быть разложен на несколько других, некоторые из которых тоже являются составными, и к которым применяется дальнейшее разложение. Примеры: Ω U+2126 → Ω U+03A9 Å U+00C5 → A U+0041 ̊ U+030A ṩ U+1E69 → s U+0073 ̣ U+0323 ̇ U+0307 ḍ̇ U+1E0B U+0323 → d U+0064 ̣ U+0323 ̇ U+0307 q̣̇ U+0071 U+0307 U+0323 → q U+0071 ̣ U+0323 ̇ U+0307 NFC NFC, normalization form C («C» от composition), форма нормализации C — алгоритм, согласно которому последовательно выполняются каноническая декомпозиция и каноническая композиция. Сначала каноническая декомпозиция (алгоритм NFD) приводит текст к форме D. Затем каноническая композиция — операция, обратная NFD, обрабатывает текст от начала к концу с учётом следующих правил:.

символ S считается начальным, если имеет класс модификации равный нулю согласно таблице символов Юникода;. в любой последовательности символов, начинающейся с символа S, символ C блокируется от S, только если между S и C есть какой-либо символ B, который либо является начальным, либо имеет одинаковый или больший класс модификации, чем C.

Это правило распространяется только на строки, прошедшие каноническую декомпозицию;. символ считается первичным композитом, если имеет каноническую декомпозицию в таблице символов Юникода (или каноническую декомпозицию для и он не входит в );.

символ X может быть первично совмещён с символом Y, если и только если существует первичный композит Z, канонически эквивалентный последовательности;. если очередной символ C не блокируется последним встреченным начальным базовым символом L и он может быть успешно первично совмещён с ним, то L заменяется на композит L-C, а C удаляется.

Пример: o U+006F ̂ U+0302 → ô U+00F4 NFKD NFKD, normalization form KD, форма нормализации KD — совместимая декомпозиция — алгоритм, согласно которому последовательно выполняются каноническая декомпозиция и замены символов текста по таблицам совместимой декомпозиции. Таблицы совместимой декомпозиции предусматривают замену на почти эквивалентные символы:. похожих на буквы (ℍ и ℌ);. обведённых кружками (①);.

с изменёнными размерами (カ и カ);. повёрнутых (︷ и );. степеней (⁹ и ₉);. дробей (¼);.

других (™). Примеры: ℍ U+210d → H U+0048 ① U+2460 → 1 U+0031 カ U+FF76 → カ U+30AB ︷ U+FE37 → U+007B ⁹ U+2079 → 9 U+0039 ¼ U+00BC → 1 ⁄ 4 U+0031 U+2044 U+0034 ™ U+2122 → T M U+0054 U+004D NFKC NFKC, normalization form KC, форма нормализации KC — алгоритм, согласно которому последовательно выполняются совместимая декомпозиция (алгоритм NFKD) и каноническая композиция (алгоритм NFC).,.,.,.,.,.,.,.,.,.,.

(китайские иероглифы активно используются в, а также изредка в ),.,.,.,.,.,.,.,. (которая включает в себя, кроме, ещё и ) и другие.

С академическими целями добавлены многие исторические письменности, в том числе:,. В Юникоде представлен широкий набор и символов, а также. Не включены в Юникод напрямую.

Для их кодирования используются пары из 26 буквенных символов, предназначенных для представления двухбуквенных кодов стран по стандарту. Эти буквы закодированы в диапазоне от U+1F1E6 🇦 regional indicator symbol letter a (HTML 🇦) до U+1F1FF 🇿 regional indicator symbol letter z (HTML 🇿). В Юникод принципиально не включаются компаний и продуктов, хотя они и встречаются в шрифтах (например, логотип в кодировке (0xF0) или логотип в шрифте Wingdings (0xFF)). В юникодовских шрифтах логотипы должны размещаться только в области пользовательских символов.

ISO/IEC 10646 Консорциум Юникода работает в тесной связи с рабочей группой ISO/IEC/JTC1/SC2/WG2, которая занимается разработкой международного стандарта 10646 (/ 10646). Между стандартом Юникода и ISO/IEC 10646 установлена синхронизация, хотя каждый стандарт использует свою терминологию и систему документации. Сотрудничество Консорциума Юникода с Международной организацией по стандартизации ( International Organization for Standardization, ISO) началось. В ISO выпустила стандарт DIS 10646.1. Для синхронизации с ним Консорциум утвердил стандарт Юникода версии 1.1, в который были внесены дополнительные символы из DIS 10646.1. В результате значения закодированных символов в Unicode 1.1 и DIS 10646.1 полностью совпали. В дальнейшем сотрудничество двух организаций продолжилось.

В 2000 году стандарт Unicode 3.0 был синхронизирован с ISO/IEC 10646-1:2000. Предстоящая третья версия ISO/IEC 10646 будет синхронизирована с Unicode 4.0. Возможно, эти спецификации даже будут опубликованы как единый стандарт. Аналогично форматам UTF-16 и UTF-32 в стандарте Юникода, стандарт ISO/IEC 10646 также имеет две основные формы кодирования символов: UCS-2 (2 байта на символ, аналогично UTF-16) и UCS-4 (4 байта на символ, аналогично UTF-32). UCS значит универсальный многооктетный (многобайтовый) кодированный набор символов ( universal multiple-octet coded character set). UCS-2 можно считать подмножеством UTF-16 (UTF-16 без суррогатных пар), а UCS-4 является синонимом для UTF-32. Отличия стандартов Юникод и ISO/IEC 10646:.

небольшие различия в терминологии;. ISO/IEC 10646 не включает разделы, необходимые для полноценной реализации поддержки Юникода:. нет данных о двоичном кодировании символов;.

нет описания алгоритмов сравнения ( collation) и отрисовки ( rendering) символов;. нет перечня свойств символов (например, нет перечня свойств, необходимых для реализации поддержки двунаправленного ( bi-directional) письма). Способы представления Юникод имеет несколько форм представления ( Unicode transformation format, UTF):, (UTF-16BE, UTF-16LE) и (UTF-32BE, UTF-32LE).

Была разработана также форма представления UTF-7 для передачи по семибитным каналам, но из-за несовместимости с она не получила распространения и не включена в стандарт. 1 апреля 2005 года были предложены две формы представления: UTF-9 и UTF-18.

В и основанных на ней системах и в основном форма UTF-16LE. В -подобных, и принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов. — другая форма кодирования последовательностей Unicode-символов в так называемые ACE-последовательности, которые состоят только из алфавитно-цифровых символов, как это разрешено в доменных именах. Основная статья: UTF-8 — представление Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст. И наоборот, в тексте UTF-8 любой со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт (на деле, только до 4 байт, поскольку в Юникоде нет символов с кодом больше 10FFFF, и вводить их в будущем не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.

В UTF-8 не используются суррогатные пары, 4 байтов достаточно для записи любого символа юникода. Формат UTF-8 был изобретён и и реализован. Сейчас стандарт UTF-8 официально закреплён в документах и ISO/IEC 10646 Annex D.

Символы UTF-8 получаются из Unicode: Unicode UTF-8: 0x00000000 — 0x0000007F: 0xxxxxxx 0x00000080 — 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 — 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 — 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Теоретически возможны, но не включены в стандарт также: 0x00200000 — 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 — 0x7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Несмотря на то, что UTF-8 позволяет указать один и тот же символ несколькими способами, только наиболее короткий из них правильный. Остальные формы должны отвергаться по соображениям безопасности. Порядок байтов В потоке данных UTF-16 младший байт может записываться либо перед старшим ( UTF-16 little-endian), либо после старшего ( UTF-16 big-endian).

Аналогично существует два варианта четырёхбайтной кодировки — UTF-32LE и UTF-32BE. Electrolux кондиционеры. Для определения формата представления Юникода в начало текстового файла записывается — символ U+FEFF (неразрывный пробел с нулевой шириной), также именуемый ( byte order mark (BOM)). Это позволяет различать UTF-16LE и UTF-16BE, поскольку символа U+FFFE не существует. Также этот способ иногда применяется для обозначения формата UTF-8, хотя к этому формату и неприменимо понятие порядка байтов. Файлы, следующие этому соглашению, начинаются с таких последовательностей байтов: UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00 К сожалению, этот способ не позволяет надёжно различать UTF-16LE и UTF-32LE, поскольку символ U+0000 допускается Юникодом (хотя реальные тексты редко начинаются с него). Согласно стандарту, если текст в кодировках UTF-16 и UTF-32 не содержит BOM, то по умолчанию предполагается порядок байтов big-endian.

Красивые русские шрифты

На практике же, вследствие того, что ОС Windows по умолчанию использует порядок little-endian, то и многие приложения подобным образом по умолчанию используют порядок little-endian. Юникод и традиционные кодировки Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода.

Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод. Кроме того, многие форматы данных позволяют вставлять любые символы Юникода, даже если документ записан в старой 8-битной кодировке. Например, в HTML можно использовать. Реализации Большинство современных операционных систем в той или иной степени обеспечивают поддержку Юникода. В операционных системах семейства для внутреннего представления имён файлов и других системных строк используется двухбайтовая кодировка UTF-16LE.

Русские Шрифты Для Фотошопа

Системные вызовы, принимающие строковые параметры, существуют в однобайтном и двухбайтном вариантах. Подробнее см.подобные операционные системы, в том числе, используют для представления Юникода кодировку UTF-8. Большинство программ могут работать с UTF-8 как с традиционными однобайтными кодировками, не обращая внимания на то, что символ представляется как несколько последовательных байт. Для работы с отдельными символами строки обычно перекодируются в UCS-4, так что каждому символу соответствует. Одной из первых успешных коммерческих реализаций Юникода стала среда программирования. В ней принципиально отказались от 8-битного представления символов в пользу 16-битного. Это решение увеличивало расход памяти, но позволило вернуть в программирование важную абстракцию: произвольный одиночный символ (тип char).

В частности, программист мог работать со строкой, как с простым массивом. К сожалению, успех не был окончательным, Юникод перерос ограничение в 16 бит и к версии J2SE 5.0 произвольный символ снова стал занимать переменное число единиц памяти — один char или два (см. Сейчас большинство языков программирования поддерживают строки Юникода, хотя их представление может различаться в зависимости от реализации. Методы ввода Поскольку ни одна не может позволить вводить все символы Юникода одновременно, от и требуется поддержка альтернативных методов ввода произвольных символов Юникода.

Основная статья: Хотя начиная с, служебная программа «Таблица символов» (charmap.exe) поддерживает символы Юникода и позволяет копировать их в, но эта поддержка ограничена только базовой плоскостью (коды символов U+0000U+FFFF). Символы с кодами от U+10000 «Таблица символов» не отображает. Похожая таблица есть, например,. Иногда можно набрать код, нажать + X, и код будет заменён на соответствующий символ, например, в, Microsoft Word.

В редакторах Alt+ X выполняет и обратное преобразование. Во многих программах MS Windows, чтобы получить символ Unicode, нужно при нажатой клавише Alt набрать десятичное значение кода символа на цифровой клавиатуре. Например, полезными при наборе кириллических текстов будут комбинации Alt+0171 («), Alt+0187 (») и Alt+0769. Интересны также комбинации Alt+0133 и Alt+0151 (—).

В 8.5 и более поздних версиях поддерживается метод ввода, называемый «Unicode Hex Input». При зажатой клавише Option требуется набрать четырёхзначный шестнадцатеричный код требуемого символа. Этот метод позволяет вводить символы с кодами, большими U+FFFF, используя пары суррогатов; такие пары операционной системой будут автоматически заменены на одиночные символы. Этот метод ввода перед использованием нужно активизировать в соответствующем разделе системных настроек и затем выбрать как текущий метод ввода в меню клавиатуры. Начиная с 10.2, существует также приложение «Character Palette», позволяющее выбирать символы из таблицы, в которой можно выделять символы определённого блока или символы, поддерживаемые конкретным шрифтом. В также есть утилита «» (ранее gucharmap), позволяющая отображать символы определённого блока или системы письма и предоставляющая возможность поиска по названию или описанию символа.

Когда код нужного символа известен, его можно ввести в соответствии со стандартом 14755: при зажатых клавишах Ctrl+ ⇧ Shift ввести шестнадцатеричный код (начиная с некоторой версии GTK+, ввод кода нужно предварить нажатием клавиши «U»). Вводимый шестнадцатеричный код может иметь до 32 бит в длину, позволяя вводить любые символы Юникода без использования суррогатных пар. Все приложения, включая GNOME и, поддерживают ввод при помощи клавиши.

Для клавиатур, на которых нет отдельной клавиши, для этой цели можно назначить любую клавишу — например, ⇪. Консоль GNU/Linux также допускает ввод символа Юникода по его коду — для этого десятичный код символа нужно ввести цифрами расширенного блока клавиатуры при зажатой клавише. Можно вводить символы и по их шестнадцатеричному коду: для этого нужно зажать клавишу AltGr, и для ввода цифр A—F использовать клавиши расширенного блока клавиатуры от NumLock до ↵ Enter (по часовой стрелке).

Поддерживается также и ввод в соответствии с ISO 14755. Для того чтобы перечисленные способы могли работать, нужно включить в консоли режим Юникода вызовом unicodestart(1) и выбрать подходящий шрифт вызовом setfont(8). Для Linux поддерживает ввод символов по ISO 14755. Инструкция bri 19.

Проблемы Юникода В Юникоде английское «a» и польское «a» — один и тот же символ. Точно так же одним и тем же символом (но отличающимся от «a» латинского) считаются русское «а» и сербское «а». Такой принцип кодирования не универсален; по-видимому, решения «на все случаи жизни» вообще не может существовать. Тексты на, и языках имеют традиционное написание сверху вниз, начиная с правого верхнего угла.

Переключение горизонтального и вертикального написания для этих языков не предусмотрено в Юникоде — это должно осуществляться средствами или внутренними механизмами. Юникод предусматривает возможность разных начертаний одного и того же символа в зависимости от языка. Так, могут иметь разные начертания в китайском, японском и корейском , но при этом в Юникоде обозначаются одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Аналогично, и языки используют разное начертание курсивных букв п и т (в сербском они выглядят как и и ш, см. Поэтому нужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.

Перевод из строчных букв в заглавные тоже зависит от языка. Например: в существуют буквы — таким образом, турецкие правила изменения регистра конфликтуют с, которые предписывают «i» переводить в «I». Подобные проблемы есть и в других языках — например, в канадском диалекте французского языка регистр переводится немного не так, как во Франции. Даже с есть определённые типографские тонкости: цифры бывают «прописными» и «», пропорциональными и — для Юникода разницы между ними нет.

Подобные нюансы остаются за программным обеспечением. Некоторые недостатки связаны не с самим Юникодом, а с возможностями обработчиков текста.

Файлы нелатинского текста в Юникоде всегда занимают больше места, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков, алфавит которых укладывается в ASCII, а также наличие в тексте символов двух и более языков, алфавит которых не укладывается в ASCII ). Файл шрифта, необходимый для отображения всех символов таблицы Юникод, занимает сравнительно много места в памяти и требует бо́льших вычислительных ресурсов, чем шрифт только одного национального языка пользователя. С увеличением мощности компьютерных систем и удешевлением памяти и дискового пространства эта проблема становится всё менее существенной; тем не менее, она остаётся актуальной для портативных устройств, например, для мобильных телефонов. Хотя поддержка Юникода реализована в наиболее распространённых операционных системах, до сих пор не всё прикладное программное обеспечение поддерживает корректную работу с ним. В частности, не всегда обрабатываются метки порядка байтов и плохо поддерживаются диакритические символы. Проблема является временной и есть следствие сравнительной новизны стандартов Юникода (в сравнении с однобайтовыми национальными кодировками).

Производительность всех программ обработки строк (в том числе и сортировок в БД) снижается при использовании Юникода вместо однобайтовых кодировок. Некоторые редкие системы письма всё ещё не представлены должным образом в Юникоде. Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, как, например, в, пока не реализовано. «Юникод» или «Уникод»? «Unicode» — одновременно и имя собственное (или часть имени, например, Unicode Consortium), и имя нарицательное, происходящее из английского языка. На первый взгляд предпочтительнее использовать написание «Уникод».

В уже есть «уни-» (слова с латинским элементом «uni-» традиционно переводились и писались через «уни-»: универсальный, униполярный, унификация, униформа) и «код». Напротив, торговые марки, заимствованные из, обычно передаются посредством практической транскрипции, в которой деэтимологизированное сочетание букв «uni-» записывается в виде «юни-» («», «» и т. п.), то есть точно так же, как в случае с побуквенными сокращениями, вроде «United Nations International Children’s Emergency Fund» —. Написание «Юникод» уже твёрдо вошло в русскоязычные тексты. В используется более распространённый вариант.

Шрифты

Русские

В используется вариант «Юникод». На сайте Консорциума есть специальная страница, где рассматриваются проблемы передачи слова «Unicode» в различных языках и системах письма.

Для русской кириллицы указан вариант «Юникод». Формы, принятые иностранными организациями для русской передачи слова «Unicode», являются рекомендательными. Также. Библиотека содержит широкий набор функций для работы c символами и строками в кодировке Unicode. Примечания. Проверено 10 мая 2010.

22 августа 2011 года. Проверено 4 июля 2010. 22 августа 2011 года. Проверено 4 июля 2010. 22 августа 2011 года.

Проверено 4 июля 2010. 22 августа 2011 года.

Проверено 4 июля 2010. 22 августа 2011 года.

Проверено 5 июля 2010. 22 августа 2011 года. Проверено 4 июля 2010. 22 августа 2011 года. Проверено 8 июля 2010. 22 августа 2011 года. Microsoft Support.

22 августа 2011 года. 22 августа 2011 года. The Unicode Consortium. Mountain View, CA: The Unicode Consortium (2017). Проверено 2 июля 2017.

Шрифты

Русские Шрифты Юникод

(англ.). Проверено 8 декабря 2017. Проверено 4 декабря 2017. Проверено 4 декабря 2017. Проверено 8 декабря 2017. Проверено 4 декабря 2017. Проверено 8 декабря 2017.

Проверено 4 декабря 2017. Проверено 8 декабря 2017. Проверено 4 декабря 2017. Проверено 8 декабря 2017. Проверено 4 декабря 2017. Проверено 8 декабря 2017. Проверено 4 декабря 2017.

Проверено 8 декабря 2017. Проверено 4 декабря 2017.

Проверено 8 декабря 2017. Проверено 4 декабря 2017. Проверено 8 декабря 2017.

Проверено 4 декабря 2017. (14 July 2006). Проверено 8 декабря 2017. Проверено 4 декабря 2017.

(4 April 2008). Проверено 8 декабря 2017. Проверено 4 декабря 2017.

Скачать Шрифт Бесплатно

(1 October 2009). Проверено 8 декабря 2017. Проверено 4 декабря 2017. (11 October 2010). Проверено 8 декабря 2017.

Проверено 4 декабря 2017. (31 January 2012). Проверено 8 декабря 2017. Проверено 4 декабря 2017. (26 September 2012). Проверено 7 декабря 2017. Проверено 4 декабря 2017.

(30 September 2012). Проверено 7 декабря 2017.

Проверено 4 декабря 2017. (16 June 2014). Проверено 8 декабря 2017.

Проверено 4 декабря 2017. (17 June 2015). Проверено 8 декабря 2017. Проверено 4 декабря 2017. (21 June 2016).

Проверено 8 декабря 2017. Проверено 6 декабря 2017. (27 June 2017). Проверено 8 декабря 2017. Проверено 7 декабря 2017. ↑.

Впоследствии конкретным формам арабских букв отвели отдельные позиции. Но всё равно рекомендуется писать по-арабски «общими» вариантами букв. (англ.). В большинстве шрифтов для ПК реализованы «прописные» (маюскульные) моноширинные цифры. В некоторых случаях документ (не простой текст) в Юникоде может занимать существенно меньше места, чем документ в однобайтовой кодировке. Например, если некая веб-страница содержит примерно поровну русского и греческого текста, то в однобайтовой кодировке придётся либо русские, либо греческие буквы записывать, используя возможности формата документов, в виде кодов с амперсандом, которые занимают 6—7 байт на символ (при использовании десятичных кодов), то есть в среднем на букву придётся 3,5—4 байта, в то время как UTF-8 занимает только 2 байта на греческую или русскую букву.

Один из файлов шрифтов Arial Unicode имеет размер 24 мегабайта; существует Times New Roman размером 120 мегабайт, он содержит количество символов, близкое к 65536. Ссылки. (англ.). в каталоге ссылок (dmoz) (англ.). Статья «» (рус.) на официальном сайте Консорциума.

(англ.). Последнюю версию стандарта ISO/IEC 10646 ищите в (англ.). Документы, соответствующие стандарту Unicode 7.0: (файл ZIP) (англ.), (файл ZIP) (англ.), Amendments 2 (по состоянию 2014-08-06 ещё недоступен). (рус.) (англ.) (нем.). (файл PDF) (англ.).

(англ.).:, (англ.). (англ.). (англ.).