#bpe — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #bpe, aggregated by home.social.
-
https://www.europesays.com/africa/234448/ Nigeria urged to embrace five pillars for digital resilience, inclusion #BPE #Nigeria #TunjiAlausa
-
Imam Idriz kam mit Hilfe von CSU und FDP aus VS-Beobachtung raus https://pi-news.net/2026/05/imam-idriz-kam-mit-hilfe-von-csu-und-fdp-aus-vs-beobachtung-raus/ #IslamisierungDeutschlands #PolitischerIslam #ImamIdriz #Islam #BPE #CSU #FDP
-
JETZT LIVE: BPE-Kundgebung in Bremen gegen Politischen Islam https://pi-news.net/2026/05/jetzt-live-bpe-kundgebung-in-bremen-gegen-politischen-islam/ #Deutschland #Video #BPE
-
BPE: Ein Vierteljahrhundert Aufklärungsarbeit über den Islam https://pi-news.net/2026/04/bpe-ein-vierteljahrhundert-aufklaerungsarbeit-ueber-den-islam/ #PolitischerIslam #Islamaufklärung #Widerstand #Islam #BPE
-
Ist Aachener Zug-Attentäter mit Koran und Messern ein „Rechtsextremist“? https://pi-news.net/2026/04/ist-aachener-zug-attentaeter-mit-koran-und-messern-ein-rechtsextremist/ #IslamisierungDeutschlands #Rechtsextremismus #PolitischerIslam #Terrorismus #Islamismus #MeinKampf #Terror #Islam #Koran #BPE
-
Merz fordert Debatte um „Islam und Frauen“- Imam Idriz lädt in Moschee ein https://pi-news.net/2026/04/merz-fordert-debatte-um-islam-und-frauen-imam-idriz-laedt-in-moschee-ein/ #Frauenunterdrückung #Islamaufklärung #Frauen #Gewalt #Islam #Idriz #Koran #Merz #BPE
-
Kassel (12 bis 17 Uhr): BPE-Kundgebung klärt über Politischen Islam auf https://pi-news.net/2026/03/kassel-12-bis-17-uhr-bpe-kundgebung-klaert-ueber-politischen-islam-auf/ #Islamaufklärung #BPE
-
JETZT LIVE: BPE-Kundgebung „Aufklären statt Wegducken“ in Augsburg https://pi-news.net/2026/03/jetzt-live-bpe-kundgebung-aufklaeren-statt-wegducken-in-augsburg/ #Islam #Video #BPE
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
JETZT LIVE: BPE-Kundgebung mit Irfan Peci in Hamburg https://pi-news.net/2025/11/jetzt-live-bpe-kundgebung-mit-irfan-peci-in-hamburg/ #IrfanPeci #Islam #BPE
-
⚠️ Vulnerability Report
=======================🎯 AI
Executive summary: New analysis highlights that emojis and uncommon
Unicode byte sequences can cause brittle behavior in large language
models by producing unexpected tokenization outputs under Byte-Pair
Encoding (BPE) or similar tokenizers. This is an operational security
concern for any pipeline that accepts user text and relies on
deterministic token boundaries.Technical details:
• Tokenizers relying on BPE or byte-level vocabularies split input
into subword units; multi-byte Unicode characters (for example emoji
or combined sequences) may be tokenized as rare or out-of-vocabulary
byte patterns.
• Rare or unseen byte sequences can create token fragmentation (many
short tokens) or produce tokens that map to semantically different
vectors, altering model context and generation.
• Edge cases include surrogate pairs, zero-width joiners, skin-tone
modifiers, and compound emoji sequences that change byte alignment.Analysis and impact:
• Downstream effects include unintended prompt truncation, semantic
drift, and increased susceptibility to adversarial inputs that
leverage token boundary manipulation.
• Attackers can craft inputs that force models into degraded contexts,
leak system prompts through context misalignment, or trigger unsafe
completions by exploiting tokenization mismatches.Detection:
• Monitor token length distributions versus character lengths to
detect anomalies where character count rises but token count balloons.
• Instrument preprocessing logs to capture unusual byte-sequence
frequencies and new tokens entering the embedding table.
• Use synthetic test suites that include emoji variants, combining
characters, and long multi-byte sequences.Mitigation:
• Implement Unicode normalization (NFC/NFKC) in preprocessing and
strip or canonicalize zero-width joiners where appropriate.
• Expand tokenizer training data with diverse emoji and multi-byte
sequences, or use byte-level tokenizers robust to unseen sequences.
• Add input sanitation layers that flag or constrain user-supplied
content with high token/character ratios and apply rate limits or
transformation policies.References / notes:
• This is a tokenizer-level robustness issue rather than a single
CVE-class vulnerability; mitigations focus on preprocessing, tokenizer
coverage, and monitoring.🔹 llm_security #tokenization #BPE #unicode #adversarial_ml
🔗 Source: https://infosecwriteups.com/the-emoji-that-broke-the-ai-into-27-pieces-a6ab1e1c551b
-
Tokenization for language modeling: BPE vs. Unigram Language Modeling (2020)
https://ndingwall.github.io/blog/tokenization
#HackerNews #Tokenization #LanguageModeling #BPE #Unigram #NLP
-
Looks like that salsa class that was on in our Ramsay Lecture theatre last night was pretty energetic. I hope those guys had fun. #telemetry #BPE #energymanagement #Aranet
-
A minor triumph this morning. Repairing my glove box this morning my colleague and I noticed the lab was at 11 ˚C - bizarrely no one had complained. Ten minutes with box fixed, we looked at BMS data – the "CT" circuit feeding the AHU was off. We traced this back to an event at 0245 on Monday morning. We reported our diagnosis to our BMS colleagues who reset the offending pump restoring the flow. An hour later temperature in the lab is already past 14 ˚C. #BPE #academiclife
-
📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03 -
📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03 -
📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03 -
📬 Bypass Paywalls Clean: Paywalls umgehen leicht gemacht
#Internet #Test #BPE #BrowserAddon #byebyepaywallcom #BypassPaywallsClean #gitflicru #Paywalls https://sc.tarnkappe.info/a5fb03 -
Im Schatten des 💩fD Parteitags in #Essen hat die rassistische und islamfeindliche #BPE #PaxEurope eine Kundgebung in #Bottrop angemeldet.
Nach der Messerattacke in Mannheim gibt es entsprechende Sicherheitsvorkehrungen.
-
Manche vergleichen die Situation von #AfD Kandidat #Koch mit dem #Messerangriff gegen #BPE Mitglied #Stürzenberger.
Aber der Ablauf ist dann doch ein ganz anderer, Tatwerkzeug & Motivation ebenfalls.AfD-Gemeinderatskandidat angegriffen
https://www.youtube.com/watch?v=hLGub2OF-PAAfD-Kandidat Koch in #Mannheim mit #Messer attackiert: #Haftbefehl gegen 25-Jährigen erlassen
https://www.mannheimer-morgen.de/orte/mannheim_artikel,-mannheim-afd-kandidat-koch-in-mannheim-mit-messer-attackiert-haftbefehl-gegen-25-jaehrigen-erlassen-_arid,2212696.html -
#UPDATE
Kolleg. unserer #BPE nahmen gestern in #Kreuzberg einen weiteren Verdächtigen fest, der bereits mit #Haftbefehl gesucht wurde.
Der 22-Jährige befindet sich jetzt in #Untersuchungshaft.#PM: https://www.berlin.de/polizei/polizeimeldungen/2023/pressemitteilung.1350925.php
^tsm -
Sonntagmorgen beobachteten Kolleg. unserer #BPE, wie nahe #Alexanderplatz aus einem Auto heraus mit Drogen gehandelt wurde.
Im #Kokstaxi und in der Wohnung des 42-j. Fahrers wurden u.a. reichlich verkaufsfertiges #Kokain und Bargeld beschlagnahmt.
#Festnahme, #LKA ermittelt.
^tsm -
Der Verein #BPE um Michael Stürzenberger verbreitete abermals rassistische Hetze auf dem Bahnhofsvorplatz #Köln.
Vor Ort war #YenniferInden um die Gegendemo zu stören, so dass ihr Bekannter, ein Reichsbürger, angreifen konnte.
-
#Borrmann war bereits um 2007 aufgefallen - er versuchte, einen Landesverband der "Bürgerbewegung Pax Europa" (#BPE) zu gründen und betätigte sich bei der Kleinstpartei #DemokratischeLiga. /MS
https://www.come-on.de/lennetal/werdohl/soziologin-erneut-unter-beschuss-92082947.html