home.social

#utf16 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #utf16, aggregated by home.social.

  1. Как (не) перевернуть строку, или Ох, уж этот Unicode

    Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍

    habr.com/ru/companies/nspk/art

    #java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры

  2. Как (не) перевернуть строку, или Ох, уж этот Unicode

    Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍

    habr.com/ru/companies/nspk/art

    #java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры

  3. Как (не) перевернуть строку, или Ох, уж этот Unicode

    Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍

    habr.com/ru/companies/nspk/art

    #java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры

  4. Как (не) перевернуть строку, или Ох, уж этот Unicode

    Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍

    habr.com/ru/companies/nspk/art

    #java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры

  5. Ну всё, пора закапывать UTF-8

    Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!

    habr.com/ru/articles/983042/

    #utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol

  6. Ну всё, пора закапывать UTF-8

    Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!

    habr.com/ru/articles/983042/

    #utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol

  7. Ну всё, пора закапывать UTF-8

    Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!

    habr.com/ru/articles/983042/

    #utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol

  8. Ну всё, пора закапывать UTF-8

    Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!

    habr.com/ru/articles/983042/

    #utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol

  9. The ancient symbol of Chaos is not represented in Unicode and that makes me mad.

    Yes, for the symbol of Law We have ↑, but there is no symbol in which eight arrows all point from a common origin, each at one of the cardinal or intercardinal compass directions.

    The best we have is ☸ but it's not made of arrows, is too circley, and is already taken by some stupid supposedly """ancient""" religion.

    BAH/Humbug!

    #arioch #chao #chaos #elric #fiction #michaelmoorcock #moorcock #pulp #pulpfiction #sacredchao #tuches #tukhes #tus #ucs #unicode #universalcodedcharacterset #utf16 #utf32 #utf64 #utf8 #wtf69

  10. [Перевод] Освоение Unicode в Java: создаём на Quarkus REST API, готовый к глобальной аудитории

    В этом руководстве мы разберем непонятности вокруг Unicode и узнаем, как строить надёжные, интернациональные Java-приложения. Разберём теорию, укажем на подводные камни, а затем соберём «Глобальный сервис приветствий» на Quarkus, который переживёт весь хаос реального текста. К концу статьи вы разберётесь с тем, – как устроен Unicode и как Java на самом деле хранит текст; – почему длина строки и перебор символов сложнее, чем кажется; – как нормализация предотвращает неприятные несоответствия; – как настроить REST-сервис и базу данных для безопасной работы с Unicode. Unicode без боли

    habr.com/ru/companies/otus/art

    #unicode #Quarkus #Java #UTF8 #UTF16 #графемные_кластеры #нормализация #nfc #сортировка_по_локали

  11. Imutin kaikki #Facebook'in julkaisuni – ainakin jos #Meta'a uskotaan. Pyysin #JSON-muodossa toivossa, että tulisi sutjakammin. Hieman ongelmia aiheutti JSONin koodaus: merkkijonot ovat validia #UTF8:aa mutta JSON ilmeisesti olettaa #UTF16:n, joten vaaditaan mukamuunnos eestaas; apua löytyi #StackOverflow’sta. Aikaleimat sentään olivat standardi-#POSIX’ia.

    En tiedä, kuinka täydellinen ”arkisto” on, mutta ainakin jotakin saisi talteen, kun lähtee lätkimään. #some #atkjuttuja

  12. [Перевод] Нельзя предполагать, что все используют UTF-8

    Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.

    habr.com/ru/companies/ruvds/ar

    #ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок

  13. [Перевод] Нельзя предполагать, что все используют UTF-8

    Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.

    habr.com/ru/companies/ruvds/ar

    #ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок

  14. [Перевод] Нельзя предполагать, что все используют UTF-8

    Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.

    habr.com/ru/companies/ruvds/ar

    #ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок

  15. [Перевод] Нельзя предполагать, что все используют UTF-8

    Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.

    habr.com/ru/companies/ruvds/ar

    #ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок

  16. Just released dos2ansi v0.4, with lots of #DOS #codepage s supported and a testmode to display them.

    The next nice feature would be to use the actual terminal capabilities if output goes there. Very simple on *nix-like systems (#Linux, #FreeBSD, ...), just link #curses and use the termcap functions.

    Thinking about #Windows again, either I keep relying on #UTF8 support (since #win7 IIRC? and still a bit buggy) and #ANSI sequences support (since #win10) .... OR I attempt to use the native #Console #API there (using special functions to write in #UTF16 and other special functions to set colors, which would require a major refactoring first 🙄)

    github.com/Zirias/dos2ansi/rel

  17. New pre-release of dos2ansi: v0.2

    * Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
    * Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
    * Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOM

    Still a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎

    github.com/Zirias/dos2ansi/rel

  18. New pre-release of dos2ansi: v0.2

    * Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
    * Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
    * Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOM

    Still a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎

    github.com/Zirias/dos2ansi/rel

  19. New pre-release of dos2ansi: v0.2

    * Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
    * Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
    * Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOM

    Still a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎

    github.com/Zirias/dos2ansi/rel

  20. New pre-release of dos2ansi: v0.2

    * Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
    * Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
    * Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOM

    Still a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎

    github.com/Zirias/dos2ansi/rel

  21. New pre-release of dos2ansi: v0.2

    * Works on , win32 binary (cross-compiled on ) attached
    * Selectable input (so far only , and )
    * Selectable output format, , or , with or without

    Still a few things to add, e.g. use /#terminfo or Windows Console API for "color output" when applicable ... we will see 😎

    github.com/Zirias/dos2ansi/rel

  22. @wader I had a quick look at your code now and see you're already "handling" this using wmain() and doing the conversion. So, this seems to be a bit mysterious.

    Is all your output #utf8? Then adding SetConsoleOutputCP(CP_UTF8); should fix output for anyone without requiring them to use chcp first, but I don't see why specifically argv values continue to have a problem. It probably needs some experimentation 😞

    Text encoding on #Windows is so borked because they jumped on #Unicode early using #UCS2 and now they need to handle everything in #UTF16 stored in 16bit wide wchar_t ... and also want to remain compatible with any older crap ... 🙈

  23. [Перевод] Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript

    Должен признаться: на протяжении очень долгого времени я испытывал страх перед Unicode. Когда была необходимость в работе с Unicode, я предпочитал искать альтернативные пути решения, поскольку не совсем понимал, что делаю. Я старался избегать работы с Unicode до тех пор, пока не столкнулся с проблемой, требующей глубокого понимания этого стандарта, а других вариантов решения просто не было. Приложив определенные усилия, прочитав кучу статей — я постепенно начал понимать что к чему, и это оказалось не так уж трудно. Хотя, некоторые статьи приходилось перечитывать раза по 3. Как оказалось, Unicode — это универсальный и удобный стандарт, но работать с ним может быть непросто из-за множества абстрактных терминов. Если у вас есть пробелы в понимании Unicode, то сейчас самое подходящее время их заполнить! Заварите себе вкусный чай или кофе ☕. И давайте погрузимся в удивительный мир абстракций, символов, астралов (astrals) и суррогатов (surrogates). В этой статье объясняются основные концепции Unicode, которые создадут необходимую базу для работы с ним. Вы также узнаете, как JavaScript взаимодействует с Unicode и какие трудности могут возникнуть на этом пути. А также, каким образом новые функции из ECMAScript 2015 могут помочь в решении этих проблем. Готовы? Давайте начнем!

    habr.com/ru/companies/timeweb/

    #timeweb_статьи_перевод #javascript #webразработка #webdevelopment #unicode #utf16 #utf8 #юникод

  24. Суперсемейка против Unicode: Эластика и ее противник гибкий UTF-8

    Кодировка символов – это про то, как символы которыми мы пишем наши сообщения выглядят в двоичном коде. В мире существует множество кодировок, но самые популярные из них, это; ASCII – это самая первая кодировка в мире, она была создана в Америке. Собственно благодаря ей, 8 бит равны 1 байт. UTF-8, 16 и 32 – данные кодировки были созданы организацией Unicode (Юникод). Если по простому, то они это то же самое что и ASCII, но более вместительные, что означает, что они занимают больше памяти. Все бы ничего, легкая тема, но есть одно но – кодировка UTF-8 имеет, как по мне, гениальную особенность: она умеет "растягиваться". То есть адаптироваться под большое кол-во символов.

    habr.com/ru/articles/788230/

    #unicode #utf8 #utf16 #utf32 #ascii #ram #byte #css #encode #computer_science

  25. Суперсемейка против Unicode: Эластика и ее противник гибкий UTF-8

    Кодировка символов – это про то, как символы которыми мы пишем наши сообщения выглядят в двоичном коде. В мире существует множество кодировок, но самые популярные из них, это; ASCII – это самая первая кодировка в мире, она была создана в Америке. Собственно благодаря ей, 8 бит равны 1 байт. UTF-8, 16 и 32 – данные кодировки были созданы организацией Unicode (Юникод). Если по простому, то они это то же самое что и ASCII, но более вместительные, что означает, что они занимают больше памяти. Все бы ничего, легкая тема, но есть одно но – кодировка UTF-8 имеет, как по мне, гениальную особенность: она умеет "растягиваться". То есть адаптироваться под большое кол-во символов.

    habr.com/ru/articles/788230/

    #unicode #utf8 #utf16 #utf32 #ascii #ram #byte #css #encode #computer_science

  26. Huh!?

    I'm trying to open qsv (csv toolkit written in #Rust) in VSCode and rust-analyzer keeps loading and loading until my 8GB RAM is full. 😬

    What in the name of Ferris is happening!? :ferris:

    There is a process "cc1plus" that allocates 6GB of RAM! Oh my!

    Oh noes, it's C++!😵

    Wait, what!? Have I just hit this weird UTF-16 bug in GCC?

    stackoverflow.com/questions/29

    #OOM #OutOfMemory #Bug #GCC #CPlusPlus #UTF16 #UTF8 #Encoding