#bpe — Public Fediverse posts on home.social

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#bpe #токенизация #морфемы #языковые_модели #nlp #лингвистика

The Collector™:black_verified: @[email protected] · 2025-11-15 · 15:04 UTC

JETZT LIVE: BPE-Kundgebung mit Irfan Peci in Hamburg https://pi-news.net/2025/11/jetzt-live-bpe-kundgebung-mit-irfan-peci-in-hamburg/ #IrfanPeci #Islam #BPE

#bpe #islam #irfanpeci

hasamba @[email protected] · 2025-09-27 · 08:29 UTC

⚠️ Vulnerability Report
=======================

🎯 AI

Executive summary: New analysis highlights that emojis and uncommon
Unicode byte sequences can cause brittle behavior in large language
models by producing unexpected tokenization outputs under Byte-Pair
Encoding (BPE) or similar tokenizers. This is an operational security
concern for any pipeline that accepts user text and relies on
deterministic token boundaries.

Technical details:
• Tokenizers relying on BPE or byte-level vocabularies split input
into subword units; multi-byte Unicode characters (for example emoji
or combined sequences) may be tokenized as rare or out-of-vocabulary
byte patterns.
• Rare or unseen byte sequences can create token fragmentation (many
short tokens) or produce tokens that map to semantically different
vectors, altering model context and generation.
• Edge cases include surrogate pairs, zero-width joiners, skin-tone
modifiers, and compound emoji sequences that change byte alignment.

Analysis and impact:
• Downstream effects include unintended prompt truncation, semantic
drift, and increased susceptibility to adversarial inputs that
leverage token boundary manipulation.
• Attackers can craft inputs that force models into degraded contexts,
leak system prompts through context misalignment, or trigger unsafe
completions by exploiting tokenization mismatches.

Detection:
• Monitor token length distributions versus character lengths to
detect anomalies where character count rises but token count balloons.
• Instrument preprocessing logs to capture unusual byte-sequence
frequencies and new tokens entering the embedding table.
• Use synthetic test suites that include emoji variants, combining
characters, and long multi-byte sequences.

Mitigation:
• Implement Unicode normalization (NFC/NFKC) in preprocessing and
strip or canonicalize zero-width joiners where appropriate.
• Expand tokenizer training data with diverse emoji and multi-byte
sequences, or use byte-level tokenizers robust to unseen sequences.
• Add input sanitation layers that flag or constrain user-supplied
content with high token/character ratios and apply rate limits or
transformation policies.

References / notes:
• This is a tokenizer-level robustness issue rather than a single
CVE-class vulnerability; mitigations focus on preprocessing, tokenizer
coverage, and monitoring.

🔹 llm_security #tokenization #BPE #unicode #adversarial_ml

🔗 Source: https://infosecwriteups.com/the-emoji-that-broke-the-ai-into-27-pieces-a6ab1e1c551b

#tokenization #bpe #unicode #adversarial_ml

Hacker News @[email protected] · 2025-05-30 · 10:01 UTC

Tokenization for language modeling: BPE vs. Unigram Language Modeling (2020)

https://ndingwall.github.io/blog/tokenization

#HackerNews #Tokenization #LanguageModeling #BPE #Unigram #NLP

#hackernews #tokenization #languagemodeling #bpe #unigram #nlp

SellaTheChemist @[email protected] · 2024-11-14 · 11:42 UTC

Looks like that salsa class that was on in our Ramsay Lecture theatre last night was pretty energetic. I hope those guys had fun. #telemetry #BPE #energymanagement #Aranet

#telemetry #bpe #energymanagement #aranet

SellaTheChemist @[email protected] · 2024-11-12 · 13:18 UTC

A minor triumph this morning. Repairing my glove box this morning my colleague and I noticed the lab was at 11 ˚C - bizarrely no one had complained. Ten minutes with box fixed, we looked at BMS data – the "CT" circuit feeding the AHU was off. We traced this back to an event at 0245 on Monday morning. We reported our diagnosis to our BMS colleagues who reset the offending pump restoring the flow. An hour later temperature in the lab is already past 14 ˚C. #BPE #academiclife

#bpe #academiclife

Tarnkappe.info @[email protected] · 2024-11-08 · 06:31 UTC

📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03

#internet #test #bpe #browseraddon #byebyepaywallcom #bypasspaywallsclean

Tarnkappe.info @[email protected] · 2024-11-08 · 06:31 UTC

📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03

#internet #test #bpe #browseraddon #byebyepaywallcom #bypasspaywallsclean

Tarnkappe.info @[email protected] · 2024-11-08 · 06:31 UTC

📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03

#paywalls #gitflicru #bypasspaywallsclean #byebyepaywallcom #browseraddon #bpe

Tarnkappe.info @[email protected] · 2024-11-08 · 06:31 UTC

📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03

#internet #test #bpe #browseraddon #byebyepaywallcom #bypasspaywallsclean

Martin Smaxwil @[email protected] · 2024-06-29 · 08:42 UTC

Im Schatten des 💩fD Parteitags in #Essen hat die rassistische und islamfeindliche #BPE #PaxEurope eine Kundgebung in #Bottrop angemeldet.

Nach der Messerattacke in Mannheim gibt es entsprechende Sicherheitsvorkehrungen.

#NoAFD #NazisStoppen

#nazisstoppen #noafd #bottrop #paxeurope #bpe #essen

Anja Reul 📯 @[email protected] · 2024-06-05 · 18:44 UTC

Manche vergleichen die Situation von #AfD Kandidat #Koch mit dem #Messerangriff gegen #BPE Mitglied #Stürzenberger.
Aber der Ablauf ist dann doch ein ganz anderer, Tatwerkzeug & Motivation ebenfalls.

AfD-Gemeinderatskandidat angegriffen
https://www.youtube.com/watch?v=hLGub2OF-PA

AfD-Kandidat Koch in #Mannheim mit #Messer attackiert: #Haftbefehl gegen 25-Jährigen erlassen
https://www.mannheimer-morgen.de/orte/mannheim_artikel,-mannheim-afd-kandidat-koch-in-mannheim-mit-messer-attackiert-haftbefehl-gegen-25-jaehrigen-erlassen-_arid,2212696.html

#sturzenberger #mannheim #messer #haftbefehl #afd #koch

RABA @[email protected] · 2024-06-02 · 09:16 UTC

@billroth Wir haben über den Angriff auf Michael Stürzenberger und BPE berichtet und festgestellt, dass die Veranstaltung verhindert wurde. Eine Legitimation eines mutmaßlichen Attentats beinhaltet unser Tweet nicht. Die rassistische Dimension von #BPE muss benannt werden. #Mannheim

#bpe #mannheim

RABA @[email protected] · 2024-05-31 · 15:29 UTC

Wir haben über den Angriff auf Michael Stürzenberger und BPE berichtet und festgestellt, dass die Veranstaltung verhindert wurde. Eine Legitimation eines mutmaßlichen Attentats beinhaltet unser Tweet nicht. Die rassistische Dimension von #BPE muss benannt werden. #Mannheim

#bpe #mannheim

RABA @[email protected] · 2024-05-31 · 11:25 UTC

Der Aufwiegler und extrem rechte Hetzer Michael Stürzenberger samt seiner rassistischen Sekte „Bündnis Pax Europa“ wurde offenbar in #Mannheim von einem Mann angegriffen und an der Durchführung ihrer rassistischen Veranstaltung gehindert. #BPE

#mannheim #bpe

RABA @[email protected] · 2023-10-07 · 12:42 UTC

Kölner Spielmannszug fällt Rassist_innen von #BPE in den Rücken mit Paukenschlag! #k0710

#bpe #k0710

Polizei Berlin @[email protected] · 2023-07-31 · 11:11 UTC

#UPDATE
Kolleg. unserer #BPE nahmen gestern in #Kreuzberg einen weiteren Verdächtigen fest, der bereits mit #Haftbefehl gesucht wurde.
Der 22-Jährige befindet sich jetzt in #Untersuchungshaft.

#PM: https://www.berlin.de/polizei/polizeimeldungen/2023/pressemitteilung.1350925.php
^tsm

#update #bpe #kreuzberg #haftbefehl #untersuchungshaft #pm

Polizei Berlin @[email protected] · 2023-07-31 · 10:53 UTC

Sonntagmorgen beobachteten Kolleg. unserer #BPE, wie nahe #Alexanderplatz aus einem Auto heraus mit Drogen gehandelt wurde.
Im #Kokstaxi und in der Wohnung des 42-j. Fahrers wurden u.a. reichlich verkaufsfertiges #Kokain und Bargeld beschlagnahmt.
#Festnahme, #LKA ermittelt.
^tsm

#bpe #alexanderplatz #kokstaxi #kokain #festnahme #lka

RABA @[email protected] · 2023-06-26 · 11:50 UTC

Der Verein #BPE um Michael Stürzenberger verbreitete abermals rassistische Hetze auf dem Bahnhofsvorplatz #Köln.

Vor Ort war #YenniferInden um die Gegendemo zu stören, so dass ihr Bekannter, ein Reichsbürger, angreifen konnte.

https://nrw.social/@Klarmann/110609041274392563

#bpe #koln #yenniferinden

UnionWatch @[email protected] · 2023-02-14 · 10:54 UTC

#Borrmann war bereits um 2007 aufgefallen - er versuchte, einen Landesverband der "Bürgerbewegung Pax Europa" (#BPE) zu gründen und betätigte sich bei der Kleinstpartei #DemokratischeLiga. /MS
https://www.come-on.de/lennetal/werdohl/soziologin-erneut-unter-beschuss-92082947.html

#borrmann #bpe #demokratischeliga