#utf16 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #utf16, aggregated by home.social.
-
UTF-16 reintroduced the old byte split bugs on two byte quantities.
#unicode #utf16
https://george.mand.is/2026/05/my-favorite-bugs-invalid-surrogate-pairs/ -
Как (не) перевернуть строку, или Ох, уж этот Unicode
Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍
https://habr.com/ru/companies/nspk/articles/1024668/
#java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры
-
Как (не) перевернуть строку, или Ох, уж этот Unicode
Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍
https://habr.com/ru/companies/nspk/articles/1024668/
#java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры
-
Как (не) перевернуть строку, или Ох, уж этот Unicode
Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍
https://habr.com/ru/companies/nspk/articles/1024668/
#java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры
-
Как (не) перевернуть строку, или Ох, уж этот Unicode
Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍
https://habr.com/ru/companies/nspk/articles/1024668/
#java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры
-
#Development #Comparisons
Base64 is fast now, actually · The surprising speed of native base64 encoding https://ilo.im/16bzcf_____
#Encoding #Base64 #UTF16 #JavaScript #Browsers #NodeJS #WebPerf #WebDev #Frontend #Backend -
#Development #Comparisons
Base64 is fast now, actually · The surprising speed of native base64 encoding https://ilo.im/16bzcf_____
#Encoding #Base64 #UTF16 #JavaScript #Browsers #NodeJS #WebPerf #WebDev #Frontend #Backend -
#Development #Comparisons
Base64 is fast now, actually · The surprising speed of native base64 encoding https://ilo.im/16bzcf_____
#Encoding #Base64 #UTF16 #JavaScript #Browsers #NodeJS #WebPerf #WebDev #Frontend #Backend -
#Development #Comparisons
Base64 is fast now, actually · The surprising speed of native base64 encoding https://ilo.im/16bzcf_____
#Encoding #Base64 #UTF16 #JavaScript #Browsers #NodeJS #WebPerf #WebDev #Frontend #Backend -
"Why does "👩🏾🌾" have a length of 7 in #JavaScript?"
A very nice analyse!
#utf16 #unicode
by @EvanHahn
https://evanhahn.com/javascript-string-lengths/ -
Ну всё, пора закапывать UTF-8
Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!
https://habr.com/ru/articles/983042/
#utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol
-
Ну всё, пора закапывать UTF-8
Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!
https://habr.com/ru/articles/983042/
#utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol
-
Ну всё, пора закапывать UTF-8
Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!
https://habr.com/ru/articles/983042/
#utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol
-
Ну всё, пора закапывать UTF-8
Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!
https://habr.com/ru/articles/983042/
#utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol
-
The ancient symbol of Chaos is not represented in Unicode and that makes me mad.
Yes, for the symbol of Law We have ↑, but there is no symbol in which eight arrows all point from a common origin, each at one of the cardinal or intercardinal compass directions.
The best we have is ☸ but it's not made of arrows, is too circley, and is already taken by some stupid supposedly """ancient""" religion.
BAH/Humbug!
#arioch #chao #chaos #elric #fiction #michaelmoorcock #moorcock #pulp #pulpfiction #sacredchao #tuches #tukhes #tus #ucs #unicode #universalcodedcharacterset #utf16 #utf32 #utf64 #utf8 #wtf69
-
[Перевод] Освоение Unicode в Java: создаём на Quarkus REST API, готовый к глобальной аудитории
В этом руководстве мы разберем непонятности вокруг Unicode и узнаем, как строить надёжные, интернациональные Java-приложения. Разберём теорию, укажем на подводные камни, а затем соберём «Глобальный сервис приветствий» на Quarkus, который переживёт весь хаос реального текста. К концу статьи вы разберётесь с тем, – как устроен Unicode и как Java на самом деле хранит текст; – почему длина строки и перебор символов сложнее, чем кажется; – как нормализация предотвращает неприятные несоответствия; – как настроить REST-сервис и базу данных для безопасной работы с Unicode. Unicode без боли
https://habr.com/ru/companies/otus/articles/956720/
#unicode #Quarkus #Java #UTF8 #UTF16 #графемные_кластеры #нормализация #nfc #сортировка_по_локали
-
#Development #Techniques
Text lengths with ‘Intl.Segmenter’ API · Human-friendly character counting in JavaScript https://ilo.im/166lco_____
#Characters IntlSegmenter #API #JavaScript #Unicode #UTF8 #UTF16 #Browser #WebDev #Frontend -
The grumpy serialisation format
-
Imutin kaikki #Facebook'in julkaisuni – ainakin jos #Meta'a uskotaan. Pyysin #JSON-muodossa toivossa, että tulisi sutjakammin. Hieman ongelmia aiheutti JSONin koodaus: merkkijonot ovat validia #UTF8:aa mutta JSON ilmeisesti olettaa #UTF16:n, joten vaaditaan mukamuunnos eestaas; apua löytyi #StackOverflow’sta. Aikaleimat sentään olivat standardi-#POSIX’ia.
En tiedä, kuinka täydellinen ”arkisto” on, mutta ainakin jotakin saisi talteen, kun lähtee lätkimään. #some #atkjuttuja
-
LibreOffice writer is rendering the character correctly :neofox_woozy:
#weather #icon #symbol #LibreOffice #LibreOfficeWriter #typography #utf #utf16 #utf32 -
[Перевод] Нельзя предполагать, что все используют UTF-8
Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
https://habr.com/ru/companies/ruvds/articles/811811/
#ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок
-
[Перевод] Нельзя предполагать, что все используют UTF-8
Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
https://habr.com/ru/companies/ruvds/articles/811811/
#ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок
-
[Перевод] Нельзя предполагать, что все используют UTF-8
Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
https://habr.com/ru/companies/ruvds/articles/811811/
#ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок
-
[Перевод] Нельзя предполагать, что все используют UTF-8
Как вычислять кодировку при помощи статистики Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились. По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости . Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры . И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
https://habr.com/ru/companies/ruvds/articles/811811/
#ruvds_переводы #unicode #кодировки_текста #win1252 #koi8 #utf8 #utf16 #определение_кодировок
-
Just released dos2ansi v0.4, with lots of #DOS #codepage s supported and a testmode to display them.
The next nice feature would be to use the actual terminal capabilities if output goes there. Very simple on *nix-like systems (#Linux, #FreeBSD, ...), just link #curses and use the termcap functions.
Thinking about #Windows again, either I keep relying on #UTF8 support (since #win7 IIRC? and still a bit buggy) and #ANSI sequences support (since #win10) .... OR I attempt to use the native #Console #API there (using special functions to write in #UTF16 and other special functions to set colors, which would require a major refactoring first 🙄)
-
New pre-release of dos2ansi: v0.2
* Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
* Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
* Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOMStill a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎
-
New pre-release of dos2ansi: v0.2
* Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
* Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
* Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOMStill a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎
-
New pre-release of dos2ansi: v0.2
* Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
* Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
* Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOMStill a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎
-
New pre-release of dos2ansi: v0.2
* Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
* Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
* Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOMStill a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎
-
New pre-release of dos2ansi: v0.2
* Works on #Windows, win32 binary (cross-compiled on #FreeBSD) attached
* Selectable input #codepage (so far only #cp437, #cp850 and #cp858)
* Selectable output format, #utf8, #utf16 or #utf16le, with or without #BOMStill a few things to add, e.g. use #termcap/#terminfo or Windows Console API for "color output" when applicable ... we will see 😎
-
@wader I had a quick look at your code now and see you're already "handling" this using wmain() and doing the conversion. So, this seems to be a bit mysterious.
Is all your output #utf8? Then adding SetConsoleOutputCP(CP_UTF8); should fix output for anyone without requiring them to use chcp first, but I don't see why specifically argv values continue to have a problem. It probably needs some experimentation 😞
Text encoding on #Windows is so borked because they jumped on #Unicode early using #UCS2 and now they need to handle everything in #UTF16 stored in 16bit wide wchar_t ... and also want to remain compatible with any older crap ... 🙈
-
[Перевод] Важные аспекты Unicode, о которых должен знать каждый разработчик JavaScript
Должен признаться: на протяжении очень долгого времени я испытывал страх перед Unicode. Когда была необходимость в работе с Unicode, я предпочитал искать альтернативные пути решения, поскольку не совсем понимал, что делаю. Я старался избегать работы с Unicode до тех пор, пока не столкнулся с проблемой, требующей глубокого понимания этого стандарта, а других вариантов решения просто не было. Приложив определенные усилия, прочитав кучу статей — я постепенно начал понимать что к чему, и это оказалось не так уж трудно. Хотя, некоторые статьи приходилось перечитывать раза по 3. Как оказалось, Unicode — это универсальный и удобный стандарт, но работать с ним может быть непросто из-за множества абстрактных терминов. Если у вас есть пробелы в понимании Unicode, то сейчас самое подходящее время их заполнить! Заварите себе вкусный чай или кофе ☕. И давайте погрузимся в удивительный мир абстракций, символов, астралов (astrals) и суррогатов (surrogates). В этой статье объясняются основные концепции Unicode, которые создадут необходимую базу для работы с ним. Вы также узнаете, как JavaScript взаимодействует с Unicode и какие трудности могут возникнуть на этом пути. А также, каким образом новые функции из ECMAScript 2015 могут помочь в решении этих проблем. Готовы? Давайте начнем!
https://habr.com/ru/companies/timeweb/articles/785668/
#timeweb_статьи_перевод #javascript #webразработка #webdevelopment #unicode #utf16 #utf8 #юникод
-
Суперсемейка против Unicode: Эластика и ее противник гибкий UTF-8
Кодировка символов – это про то, как символы которыми мы пишем наши сообщения выглядят в двоичном коде. В мире существует множество кодировок, но самые популярные из них, это; ASCII – это самая первая кодировка в мире, она была создана в Америке. Собственно благодаря ей, 8 бит равны 1 байт. UTF-8, 16 и 32 – данные кодировки были созданы организацией Unicode (Юникод). Если по простому, то они это то же самое что и ASCII, но более вместительные, что означает, что они занимают больше памяти. Все бы ничего, легкая тема, но есть одно но – кодировка UTF-8 имеет, как по мне, гениальную особенность: она умеет "растягиваться". То есть адаптироваться под большое кол-во символов.
https://habr.com/ru/articles/788230/
#unicode #utf8 #utf16 #utf32 #ascii #ram #byte #css #encode #computer_science
-
Суперсемейка против Unicode: Эластика и ее противник гибкий UTF-8
Кодировка символов – это про то, как символы которыми мы пишем наши сообщения выглядят в двоичном коде. В мире существует множество кодировок, но самые популярные из них, это; ASCII – это самая первая кодировка в мире, она была создана в Америке. Собственно благодаря ей, 8 бит равны 1 байт. UTF-8, 16 и 32 – данные кодировки были созданы организацией Unicode (Юникод). Если по простому, то они это то же самое что и ASCII, но более вместительные, что означает, что они занимают больше памяти. Все бы ничего, легкая тема, но есть одно но – кодировка UTF-8 имеет, как по мне, гениальную особенность: она умеет "растягиваться". То есть адаптироваться под большое кол-во символов.
https://habr.com/ru/articles/788230/
#unicode #utf8 #utf16 #utf32 #ascii #ram #byte #css #encode #computer_science
-
#Development #Introductions
The minimum developers must know about Unicode in 2023 · What is Unicode, and how do you use UTF-8 correctly? https://ilo.im/15aq66_____
#WebDev #Unicode #Frontend #Backend #Unicode #UTF8 #UTF16 -
Huh!?
I'm trying to open qsv (csv toolkit written in #Rust) in VSCode and rust-analyzer keeps loading and loading until my 8GB RAM is full. 😬
What in the name of Ferris is happening!? :ferris:
There is a process "cc1plus" that allocates 6GB of RAM! Oh my!
Oh noes, it's C++!😵
Wait, what!? Have I just hit this weird UTF-16 bug in GCC?
#OOM #OutOfMemory #Bug #GCC #CPlusPlus #UTF16 #UTF8 #Encoding