Новости

UNICODE in Windows'95

  1. You can trananslate this page with [On-line]. Windows'95 API фонти Clipboard Charmap Keyboard...
  2. Фонти.
  3. Clipboard.
  4. Charmap.
  5. Клавіатура.
  6. Редактори розкладок клавіатури:
  7. Microsoft Office.
  8. Internet Explorer 4/5
  9. Outlook Express
  10. Інші утиліти.
  11. ListFont
  12. SC UniPad
  13. UniRed
  14. mined 2000
  15. Unitype Global Writer
  16. Tango Creator
  17. інші:
  18. Front Page
  19. [email protected]

You can trananslate this page with [On-line].
  1. Windows'95 API
  2. фонти
  3. Clipboard
  4. Charmap
  5. Keyboard
  6. інші утиліти
  7. MS Office'97
  8. Internet Explorer 4
  9. Outlook Express
  10. Front Page
  11. продукти Adobe

Windows'95 API. Технічна інформація.

UNICODE в Windows 95/98 / ME - досить дивна річ. Подібно химерного поєднанню 32- і 16-бітної архітектури, в Windows 95 міститься не менше химерне поєднання UNICODE, Codepages і просто 8-ми бітного (OEM) тексту.

* Коли-небудь я розміщу сюди огляд по підтримці UNICODE в Win32s, в Win32 (95) і в Win32 (NT) ... А поки Quick'n'Dirty інформація. / * Якщо мені хто-небудь допоможе - Welcome! * /

Основне: вся можливість Windows'95 працювати з UNICODE оcнован на те, що Windows'95 модуль GDI підтримує функцію TextOutW (). Саме ця функція дозволяє відображати символи з UNICODE TrueType фонтів. Крім цієї GDI підтримує функції GetCharWidthW () і GetTextExtentPointW () які дозволяють отримати інформацію про цей Фонте. Буква W на кінці означає Wide (широкий), що передбачає 16-бітний аргумент замість 8-ми бітного.

Таким чином, Windows'95 містить вельми урізану підтримку UNICODE на рівні системи - тільки відображення UNICODE символів у вікні. Всю внутрішню роботу з UNICODE додаток повинен здійснювати саме.

Настійно рекомендую книгу:
Charles Petzold
Programming Windows
Глава 17 "Text and Fonts" є у вільному доступі.

Рекомендується також ознайомитися зі статтею А.В. і Г.В. Фролових з журналу "Світ ПК":
http://www.osp.ru/pcworld/1998/11/134.htm , Продовження:
http://www.osp.ru/pcworld/1998/12/128.htm

Якщо вже застосовувати UNICODE, то для чого-небудь серйозного, наприклад для роботи з японською мовою. :-)
Дивись наприклад "Японський для всіх" А.Н. Колесникова.

Або тут: http://www.rinet.ru/~vit/jsoft.htm

Або тут: Japanese software

Фонти.

У Windows'95 фонти True Type змінили формат на UNICODE (точно такий же, як в Windows NT). Однак залишилася можливість роботи і зі старими, не- UNICODE TrueType фонтами.

Для вивчення Вашої колекції фонтів існує дуже корисна утиліта:
Font Properties Extension, ttfext.exe - 338KB - 22 October 1 997.
Взяти можна на http://www.microsoft.com/typography/free.htm .

htm

Ще одна непогана утиліта: ListFont .

Там же, на Microsoft Typography можна завантажити дуже непогані TrueType UNICODE "Microsoft Core Fonts", фонти, що містять так званий WGL4 (Windows Glyph List 4) character set, який включає в себе 653 символу: Basic Latin, Latin-1 Supplement, Latin Extended-A, Basic Greek, Cyrillic і символ валюти EURO.

Увага! Microsoft прибрала дані шрифти з вільного доступу. Проте, згідно з ліцензією, дані шрифти можна вільно поширювати і викладати на WEB, як наприклад зроблено тут: http://corefonts.sourceforge.net/ . Крім того, повний набір цих фонтів входить в MS IE 6 або Windows XP.

На жаль, рідко який UNICODE TrueType шрифт містить всі 65.535 можливих символів. Як правило, цей список гораздно менше. Той же WGL4 і його 653 символу - це ~ 1% від повного UNICODE.

З іншого боку, в дистрибутив Windows'98 / ME / XP входить один досить об'ємний UNICODE TrueType шрифт: Lucida Sans Unicode: LSANSUNI.TTF - 298К, сожержащій понад 1700 UNICODE символів. Наприклад, HEBREW символи, BOX DRAWING, BLOCK ELEMENT, etc

Дізнатися, які саме блоки символів містяться в UNICODE TrueType Фонте можна за допомогою функції GetTextCharsetInfo () яка заповнює структуру FONTSIGNATURE. Подробиці можна дізнатися на MSDN (Пошук).

"Старі" додатка також можуть використовувати нові фонти, шляхом організації "логічних" фонтів, іноді звані також "логічними перетинами". Логічні фонти задаються у файлі
C: \ WINDOWS \ WIN.INI:

[FontSubstitutes] Times = Times New Roman Times New Roman Baltic, 186 = Times New Roman, 186 Times New Roman CE, 238 = Times New Roman, 238 Times New Roman Cyr, 204 = Times New Roman, 204 Times New Roman Greek, 161 = Times New Roman, 161 Times New Roman Tur, 162 = Times New Roman, 162

Загадкові цифри після імені шрифту - кодування "перетину". Цифри швидше за все взяті зі стелі ... :) Так: 204 = 0x0CC (Cyrillic Code), 238 = 0x0EE (Europe), 186 = 0x0BA (Baltic). Деякі додатки (наприклад Word'95) істотно залежать від цих "логічних перетинів". Подробиці див. На сторінці Костянтина Казарновского

Див. також TrueType and Unicode .

Дивно, але на тому ж сайті Microsoft можна безкоштовно завантажити UNICODE TrueType шрифти, які містять ієрогліфи! Файл з цими шрифтами входить в комплект так званого Internet Explorer Multilanguage Support (або з комплекту Micosoft Explorer 4.0 Addon (Посилання працює для 4-го Explorer-а)):

Japan Language Support 2092K Korean Language Support 1786K

Chinese (Traditional) Language Support 3323K Chinese (Simplified) Language Supporf 2418K

Насправді, ці файли складаються з величезних UNICODE TrueType фонтів з ієрогліфами (MS Gothic: MSGOTHIC.TTF - 4170144 bytes) і файлів локалізації (Codepage CP_932.NLS): ja_ttf.zip (Встановлювати через .inf). І "японізіруют" вони зовсім не Internet Explorer (вірніше, не тільки), а СИСТЕМУ Windows'95! Природно, без Input Method ів. Возмем цей факт на замітку.

В повний комплект MS Office і пакет інтернаціоналізації IIS входить ще один непоганий шрифт, який містить ієрогліфи: MS Mincho msmincho.zip .

Ще UNICODE фонти з ієрогліфами: Cyberbit Unicode Font , TwinBridge

Clipboard.

У Windows'95 підтримка UNICODE з'явилася також в Clipboard. Вірніше, з'явилися нові формати: CF_UNICODETEXT (в Windows NT) і CF_HTML вмісту Clipboard. Об'єкти CF_HTML поміщаються в Clipboard в UNICODE, в кодуванні UTF-8. А разом з кожним об'єктом CF_TEXT поміщається об'єкт CF_LOCALE (опис поточної кодової сторінки). Подробиці див. На MSDN (Натисніть "TOC"). Таким чином, існує можливість (потенційна) обмінюватися між програмами UNICODE текстом.

Одне дуже корисна властивість Clipboard - це можливість зберігати один і той же об'єкт відразу в декількох форматах. Тому "розумна" програма може поміщати в Clipboard той же самий текст в різній формі: наприклад CF_TEXT + CF_HTML. А інша "розумна" програма вибере з Clipboard той формат, який найбільш їй підходить (або володіє найбільшими можливостями форматування). Наприклад, скопіюємо в Clipboard фрагмент тексту з MS Word і спробуємо вставити цей фрагмент в Notepad і в FrontPage. Ми отримаємо: в першому случає простий текст без форматування, а в другому випадку - текст зі збереженням розмітки (оскільки FrontPage прочитає CF_RICHTEXT і запустить конвертер RTF -> HTML, а Notepad вміє працювати тільки з CF_TEXT).

Природно, кожна програма може оголосити свій власний формат даних для зберігання в Clipboard.

На жаль, мені так і не вдалося знайти номально Clipboard Viewer, хоча всяких Clipboard Manager-ів величезна кількість.

Один з Viewer -ів - програма CLIPBRD.EXE - 17376 bytes входить в дистрибутив Windows'95. Дозволяє побачити вміст Clipboard (але тільки побачити). Не дозволяє подивитися структуру вмісту Clipboard (у вигляді списку CF_ *). Дозволяє вибрати один з об'єктів CF_ *, якщо їх декілька (пункт меню "Вид"), причому підтримує OLE. Дозволяє записати вміст Clipboard як файл .CLP. Дозволяє прочитати раніше записаний .CLP файл і помістити його в Clipboard.

Структура .CLP файлу описана наприклад на GFF .

Інший viewer йде в комплекті з Microsoft Visual Stidio. Він дозволяє побачити структуру Clipboard, але не дозволяє побачити самі об'єкти, а також не розуміє нових форматів CF_ *. Призначений швидше для тестування OLE додатків.

Якщо хто знає, де взяти нормальний Clipboard Viewer, або напише сам - дайте знати! Будь ласка ! ;-)
Див. Наприклад Example Of Clipboard Viever .

Подробиці функціонування Clipboard детально викладені на MSDN (Не забудьте кнопку TOC).

Charmap.

У комплект Windows'95 входить досить примітивна утиліта CHARMAP.EXE яка дозволяє поміщати довільний текст в Clipboard. Однак, таке враження, що вона перекочувала сюди з Windows 3.11 - вона дозволяє вибирати тільки перші 256 символів шрифту (навіть з Lucida Sans Unicode) і "бачить" віртуальні TrueType шрифти, типу Arial Cyr, Arial Greek. Той же CHARMAP.EXE з Windows NT більш розумний, але на жаль не працює під Windows'95.

Гораздно більш просунута утиліта: Bjondi Character Agent ca111w.exe (Безкоштовно). Всім, хто вивчає UNICODE, настійно її рекомендую. Дізнаєтеся багато нового і цікаво про свої фонти, та й про UNICODE власне. Ця утиліта, як і CHARMAP.EXE також дозволяє поміщати вибрані символи в Clipboard (і робить це в повній відповідності з новими стандартами).

Клавіатура.

Як ми вже з'ясували, додаток Windows'95 може виводити (малювати у вікні) будь-які символи, що містяться в UNICODE True-Type Фонте через виклики TextOutW () GDI. На жаль, з введенням символів не все так просто.

Windows'95 не має коштів для введення UNICODE-символ. Проте в системі існує таке поняття, як "мова (розкладка) клавіатури" і в кожен момент часу клавіатура може бути переключена на цей певний мову і може вводити символи тільки з певною Codepage.

Ось опис відповідності LCID, коду клавіатури, мови та "перетину" фонта UNICODE. Інформація була взята з файлу MiltiLanguage Support Mullango.zip (Практично він же лежить на MS: LANG.EXE). У Windows'98 всі ці клавіатури є прямо в дистрибутиві.

========== Baltic cp_1257 Arial Baltic, 186 = Arial, 186 kbdes.kbd 0425 00000425; Estonian kbdlv.kbd 0426 00000426; Latvian kbdlv1.kbd 0426 00010426; Latvian (Latin) kbdlt.kbd 0427 00000427; Lithuanian ========== CE cp_1250 Arial CE, 238 = Arial, 238 kbdal.kbd 041C 0000041C; Albanian kbdcr.kbd 041A 0000041A; Croatian kbdcz.kbd 0405 00000405; Czech kbdcz1.kbd 0405 00010405; Czech 101 kbdhu.kbd 040E 0000040E; Hungarian kbdhu1.kbd 040E 0001040E; Hungarian 101 kbdpl.kbd 0415 00000415; Polish kbdpl1.kbd 0415 00010415; Polish Programmers kbdro.kbd 0418 00000418; Romanian kbdsl.kbd 041B 0000041B; Slovak kbdsl1.kbd 041B 0000041B; Slovak 101 kbdsv.kbd 0424 00000424; Slovenian ========== Cyrillic cp_1251 Arial Cyr, 204 = Arial, 204 kbdblr.kbd 0423 00000423; Belarusian kbdbul.kbd 0402 00000402; Bulgarian (Latin) kbdbll.kbd 0402 00000402; Bulgarian (Cyrillic) kbdru.kbd 0419 00000419; Russian kbdru1.kbd 0419 00010419; Russian (Typewriter) kbdur.kbd 0422 00000422; Ukrainian kbdycc.kbd 0C1A 00000C1A; Serbian (Cy rillic) kbdycl.kbd 0C1A 00010C1A; Serbian (Latin) ==========

Можна встановити кілька клавіатур одночасно, але активної може бути тільки одна. Її параметри прописані в Windows'95 Registry і таким чином, знаючи активну клавіатуру, ми можемо отримати -> код мови Language ID, а з нього -> використовувану Codepage. Старі програми (Office'95) можуть використовувати "перетин" фонта (ArialCyr, ArialCE etc) для даної мови, а нові (типу MS IE або Office'97 / 2000 / XP) - перетворити Codepage в UNICODE.

Пряме введення значень UNICODE в загальному випадку, на жаль, неможливий. Як певну заміну можна використовувати введення через Clipboard, наприклад вибираючи потрібний символ з Web-старніцах (Select + Copy) або з Bjondi Character Agent . При цьому в Clipboard буде поміщений CF_HTML в UNICODE UTF-8. Однак для японської мови цей метод практично неприйнятний, оскільки символів просто дуже багато (> 10.000).

Для вирішення цієї проблеми Microsoft пропонує утиліту MS IME (Input Method Editor).

MS IME - це засіб фонетичного введення символів. Тобто, спочатку латиницею набирається звучання ієрогліфа, а потім IME пребразует його в ієрогліф.

MS IME - це додаток (фактично набір DLL), яке в PanEuro і російської Windows'95 функціонує тільки під MS Internet Explorer. Решта програми його "не бачать". Проте це дає можливість набирати японський текст в листі Outlook Express, а потім переносити його, наприклад в MS Word, через Clipboard. (ПРИМІТКА) Новий MS Word 2000 / XP теж бачить MS IME. Опис роботи з MS IME є на MSDN.

Редактори розкладок клавіатури:

У Windows'95 підключення розкладок клавіатури не зводиться тільки до редагування файлів * .KBD. Крім цього потрібно буде ще прописати відповідність мови, Codepage і "перетину" фонта в Registry.

На жаль, практично всі "free" редактори не вміють редагувати розкладки з DeadKeys (букви з діакрітікой). Формат файлу * .KBD докладно описаний на MSDN.

Ще цікава сторінка: Paul's Guide to Cyrillic and Polish for Windows 95

Microsoft Office.

Microsoft Office'97 і Microsoft Office 2000 / XP мають досить потужну підтримку UNICODE. Більш того, по видимому все внутрішнє уявлення символів відбувається в UNICODE (Але не збереження * .DOC і .RTF файлів на диску!).

Треба визнати, що в загальному, перехід на UNICODE - досить вірний напрям. Тепер букви в документі на будь-якому (з WGL4) мовою, набрані однаковим шрифтом (Arial, Times) мають однаковий стиль, оскільки беруться з того ж самого (фірмового) файлу UNICODE TrueType шрифту.

Звичайно, цей перехід не дався легко. Наприклад, при роботі зі старими не- UNICODE TrueType шрифтами і при імпорті старих Word'95 документів виникають проблеми. В цьому піcьме Alex Vakulenko пояснює, чому. Крім того, ви можете відконвертирувати ваш улюблений шрифт в сучасний UNICODE формат.

Можна переконатися, що всередині MS-Word працює в UNICODE: можна вставити будь-UNICODE символ в документ Word через макрос:

Selection.InsertSymbol CharacterNumber: = 8212, Unicode: = True

Всі компоненти Office, наприклад MS-Word, абсолютно правильно підтримують Clipboard і UNICODE. Більш того, часто це єдиний спосіб ввести в документ який-небудь екзотичний символ. Наприклад, встановивши Bjondi Character Agent і Japan Language Support з Internet Explorer Multilanguage Support ми може абсолютно вільно вводити японські символи (і kana і kanji!) в документ MS-Word. І це на звичайній PanEuro або російської Windows'95! Не дуже зручно, звичайно, шукати потрібний ієрогліф серед 5000 інших, але можна! (ПРИМІТКА: використовуйте. Input Method ).

Як вставити ієрогліф? За допомогою Bjondi Character Agent потрібно вибрати потрібний символ з шрифту MS Gothic і помістити його в Clipboard. А в MS-Word-e - вставити символ з Clipboard і поміняти шрифт на той же MS Gothic. Усе ! У нашому документі красується ієрогліф. Цей документ у форматі .DOC можна зберігати, передавати і т.д. Природно, у Ваших кореспондентів на комп'ютері теж повинен бути японський шрифт MS Gothic.

Звичайно, в MS-Word і інших програмах Office є пункт меню Insert -> Character. Але на жаль, деякі символи, що містяться в шрифті, вставити таким способом не вдається. З шрифтом Lucida Sans Unicode все ще більш менш нормально, але вставити символи ієрогліфів можна, на жаль, тільки через Clipboard.

Інша, вкрай корисна можливість Office - HTML Authoring. Якщо eго додати під час установки Office, з'являється можливість зберігати документи у вигляді HTML (File -> Save As HTML) прямо з Word-a. Причому розмітка передається досить точно. На жаль, російський текст зберігається тільки в кодуванні Windows-1251, але зате вона чесно проставляється в META. (А ось для японського тексту кодувань цілих три: EUC, JIS і Shift-JIS і звичайно ж UNICODE UTF-8). (Зазвичай для публікації HTML на японському вибирають Shift-JIS. Див. японські кодування ).

Найкорисніша можливість HTML Authoring - це можливість зберігати багатомовний UNICODE HTML документ в кодуванні UTF-8. В даний час це мабуть єдина можливість виготовляти багатомовні (російська + японський + англійська + etc) HTML документи.

Internet Explorer 4/5

Сама, мабуть UNICODE -овая програма - це Internet Explorer. починаючи з версії 4 MS IE працює з UNICODE дуже добре.

Ось що пише з приводу MS IE 4 Костянтин Казарновський:

Internet Explorer 4, включаючи більшість його компонент: browser MSIE, mail & news Outlook Express, в дещо меншій мірі HTML-editor Frontpage Express, використовує Unicode як основну кодування внутрішнього уявлення і вікна введення. Судячи з ряду статей в Microsoft Knowledge Base, в MSIE реалізовано поняття "багатомовного об'єкта": визначено клас і функції для роботи з ним. Все це дозволяє підтримувати практично будь-які, в тому числі юнікодовие (UTF-7 і UTF-8) кодування Інтернет, причому для зображення символів мови ( набору символів ), Яка не підтримується шрифтом за замовчуванням, вибирається шрифт, де ця мова є. Така підміна шрифту працює для тих Юнікод, які можуть бути співставлені певного набору символів (завдання, аналогічна задачі розпізнавання доступних наборів символів шрифту ), І вона не проводиться, якщо набір символів в шрифті є, але деякі символи з цього набору відсутні - тоді вони зображаються квадратиками.

Іншими словами, поняття "фонт" і "кодування" заховані досить глибоко. Для відображення UNICODE інформації Internet Explorer сам підбере фонти, в яких є необхідні символи.

Після установки Internet Explorer Multilanguage Support, Internet Explorer 4 починає розпізнавати сторінки в японських кодуваннях (iso-2022-jp або x-sjis і т.д.). Точно так же, як в російській мові, якщо на сторінці не проставлено тег META, автоматика іноді помиляється і треба вибрати кодування через View -> Fonts. Більшість японських WEB-сторінок написано в Shift-JIS, наприклад http://www.asahi.com/ (кодування проставлена через META), хоча наприклад http://www.yahoo.co.jp працює в EUC (і кодування не проставлено). Див. японські Кодування .

Internet Explorer 4 чудово розуміє UNICODE HTML сторінки в кодуваннях UTF-7 і UTF-8. Природно, це кодування повинна бути проставлена, наприклад через тег META або в заголовку HTTP.

<Meta http-equiv = "Content-Type" content = "text / html; charset = utf-8"> А ці кодування зараз утарелі: <meta http-equiv = "Content-Type" content = "text / html ; charset = UNICODE-1-1-UTF-8 "> <meta http-equiv =" Content-Type "content =" text / html; charset = utf-7 ">

Див. Наприклад: Cyrillic Alphabet in UNICODE UTF-8 form або Cyrillc Alphabet in UNICODE UTF-7 form (UTF-7 застарів). Загляньте всередину HTML!

Точно таким же чином Internet Explorer 4 може відображати будь-які символи UNICODE, наприклад арабські або ієрогліфи. Дивись наприклад The Multilingual Web Guide або The World Speaks UNICODE . При цьому спрацьовує чудова властивість Internet Explorer: якщо в поточному шрифті немає необхідних символів, вони будуть взяті з іншого шрифту UNICODE TrueType, де вони є. Якщо в системі немає жодного шрифту, що містить потрібний символ, замість нього з'явиться порожній квадратик: [].

Одне з вельми приємних властивостей Internet Explorer 4 - це так звані Named Entities з SGML .Як відомо, HTML (SGML) підтримує Named Entities -форму записи символів, наприклад & Aacute ;. Див. Наприклад: ISO LATIN-1 . Також можна задавати коди символів Latin1 у вигляді Numerical Character Reference (NCR), наприклад 'A' - & # 65; . Але в HTML 4.0 точно так же можна задавати і 16-розрядні коди UNICODE! Наприклад NCR & # 1 041; (U + 0411) буде UNICODE значенням російської букви 'Б' (cмотри приклади тут ). Причому буде показаний UNICODE-символ незалежно від поточного кодування документа або тега META HTML. Природно, через NCR можна набирати і ієрогліфи, через їх UNICODE значення (див. Приклад: японські кодування , вид NCR ). Однак це дуже корисна властивість не можна рекомендувати до широкого використання, оскільки інші браузери можуть його не підтримувати.

Повний список символів UNICODE можна подивитися на: http://charts.unicode.org/ . Для перекладу hex -> dec можна використовувати звичайним Calculator з Windows, перевівши його в "інженерний" режим.

Див. також UNICODE support in WEB Browsers .

Internet Explorer також абсолютно правильно працює з Clipboard. Він належить до тих "розумним" програмами, які поміщають виділений текст в декількох форматах. Оскільки його "рідний" формат - HTML, то в Clipboard поміщається серед інших і об'єкт CF_HTML в кодуванні UTF-8, навіть якщо вихідна WWW сторінку в іншому кодуванні, наприклад в Shift-JIS або навіть NCR. Як нескладно здогадатися, це вміст Clipboard можна потім вставити наприклад в Word з Office (і не забути вибрати шрифт).

Internet Explorer починаючи з версії 4 дозволяє працювати з URL в UNICODE. Більш того, згідно з міжнародними стандартами це кращий метод роботи з не-латинськими буквами. В цьому випадку символи перетворюються в UTF-8, який в свою чергу перетворюється в URL-escape форму: "% 20% 80% 90" і так далі.

Outlook Express

Вельми повні кошти підтримки UNICODE має Outlook Express, що входить до складу Internet Explorer.

Найважливіше властивість Outlook Express - можливість створювати листи у форматі HTML. Тобто фактично при створенні листа працює маленький HTML-редактор (riched32.dll і mshtml.dll). Таким чином можна користуватися можливостями HTML для додання листу більш легким для читання виду (шрифти, виділення кольором).

Але навіть якщо при створенні листа обраний формат Plain Text, внутрішнє редагування все одно відбувається в UNICODE. І тільки в момент відсилання листи відбувається перетворення в потрібний нам Charset Format -> Language.

Сама мабуть цікава можливість Outlook Express - це можливість створювати листи в UNICODE в кодуванні UTF-8 для обох форматів: і HTML і Plain Text. У першому випадку ми отримаємо нормальний UTF-8 HTML "пристебнутий" до листа, а в другому випадку ми отримаємо звичайне MIME-лист з текстовим вмістом, але в UTF-8:
Content-Type: text / plain; charset = "utf-8"

Див. Приклади: MIME UTF-8 e-mail: alph_1.eml і MIME UTF-7 (застарів) e-mail: alph_2.eml

Як неважко здогадатися, Outlook Express абсолютно правильно працює з Clipboard і дозволяє вставляти в процесі редагування будь-UNICODE символи. (Оскільки "всередині" -то він працює в UNICODE).

Проблема тут може бути тільки одна: якщо ми вставимо якийсь певний символ, а потім спробуємо відправити лист з використанням набору символів (Charset), де цього символу немає. Наприклад, вставимо кирилицю або грецькі літери, а потім спробує відправити лист в ISO_8859-1. У цьому випадку все "неіснуючі" символи будуть замінені на "?" . (Наприклад, в кодуванні Windows-1251 є символ "номер", а в KOI8-R немає). Природно, якщо ми будемо відправляти лист в UTF-8, то допустимими будуть будь-які символи. У тому числі і ієрогліфи.

І на закінчення слід зазначити, що відповідно до вимог Internet Mail Consortium підтримка UNICODE і UTF-8 обов'язкова в будь-якій сучасній поштовій програмі.

Інші утиліти.

Тут наведено невеликий огляд утиліт для роботи з UNICODE під Windows 95/98 / ME, знайдений в Internet.

ListFont

Крихітна утилитка ListFont може бути вельми корисна для швидкого перегляду і вибору встановлених шрифтів. Розуміє UNICODE TrueType шрифти і показує "логічні перетину" цих UNICODE шрифтів. Є вихідні тексти. Безкоштовно.
http://www.heiner-eichmann.de/software/listfont/listfont.htm

SC UniPad

SC UniPad 1.0 - A Unicode Text Editor (C) 1998,1999 by Sharmahd Computing GmbH

Безкоштовний UNICODE текстовий редактор: http://www.unipad.org . Зроблено максимально незалежним від Windows'95. Користується власним UNICODE bit-map шрифтом (і не вміє TrueType) і читає scan-коди клавіатури (точніше WM_MESSAGE). Містить власні розкладки під всіма європейськими мовами. На жаль, не підтримує японську мову взагалі. Підтримує купу форматів файлів для UNICODE тексту. Підтримує Clipboard, але працює тільки з об'єктами CF_TEXT через вбудований перекодировщик (Paste As). Дозволяє відкривати і редагувати файли HTML в UTF-8, наприклад такого виду . Знає кодування KOI8-R. Раніше лунав безкоштовно, але з обмеженим терміном дії. Тепер безкоштовна версія має обмеження на довжину тексту, 1000 символів.

UniRed

Ще один непоганий UNICODE редактор з підтримкою UTF-8:
http://www.esperanto.mv.ru/UniRed/RUS/index.html
Безкоштовно. Є вихідні тексти.

mined 2000

http://towo.net/mined/

Unitype Global Writer

http://www.unitype.com/

Tango Creator

http://www.alis.com/

інші:

UNICODE Programs and Utilities

Front Page

  • FrontPage98
  • FrontPage2000

продукти Adobe

компанія Adobe просуває свою власну технологію масшатбіруемих шрифтів: Adobe Type1. Більш ранні версії Type1 фонтів і растрових процесорів (RIP) могли підтримувати тільки 256 символів в Фонте і містили так званий Encoding Vector.

StandartEncoding ISOLatin1Encoding MacRomanEncoding WinAnsiEncoding PDFDocEncoding Expert ExpertSubset Symbol ...

Нова технологія Adobe Type1 фонта передбачає, що доступ до символів всередині фонта здійснюється не за номерами, а по іменах. А додаток сам має формувати "вектор кодування" першими рядками в * .PS файлі.

В даний час Adobe Glyphs List містить понад 260 кириличних (сербських, чеських etc) символів, тому-то неможливо в принципі винайти універсальну 8-ми бітову кириличну кодування.

http://partners.adobe.com/asn/developer/technotes.html [Fonts section]
http://partners.adobe.com/asn/developer/PDFS/TN/5013.Cyrillic_Font_Spec.pdf

TODO: Розібратися з японським PS ... (CMAP)

Чи не розібрано Чи не розібрано.

http://crl.nmsu.edu/Research/Projects/oleada/

Sample Unicode Documents: http://www.lang.duke.edu/unichtm/unichtm.htm

http://www.czyborra.com/yudit/
http://www.czyborra.com/unicode/editors.html

[email protected]

-
- = AV = -

Last change: 30-01-2004
Як вставити ієрогліф?
1. У цьому випадку все "неіснуючі" символи будуть замінені на "?

Уважаемые партнеры, если Вас заинтересовала наша продукция, мы готовы с Вами сотрудничать. Вам необходимо заполнить эту форму и отправить нам. Наши менеджеры в оперативном режиме обработают Вашу заявку, свяжутся с Вами и ответят на все интересующее Вас вопросы.

Или позвоните нам по телефонам: (048) 823-25-64

Организация (обязательно) *

Адрес доставки

Объем

Как с вами связаться:

Имя

Телефон (обязательно) *

Мобильный телефон

Ваш E-Mail

Дополнительная информация: