home.social

#bpe — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #bpe, aggregated by home.social.

  1. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  2. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  3. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  4. ⚠️ Vulnerability Report
    =======================

    🎯 AI

    Executive summary: New analysis highlights that emojis and uncommon
    Unicode byte sequences can cause brittle behavior in large language
    models by producing unexpected tokenization outputs under Byte-Pair
    Encoding (BPE) or similar tokenizers. This is an operational security
    concern for any pipeline that accepts user text and relies on
    deterministic token boundaries.

    Technical details:
    • Tokenizers relying on BPE or byte-level vocabularies split input
    into subword units; multi-byte Unicode characters (for example emoji
    or combined sequences) may be tokenized as rare or out-of-vocabulary
    byte patterns.
    • Rare or unseen byte sequences can create token fragmentation (many
    short tokens) or produce tokens that map to semantically different
    vectors, altering model context and generation.
    • Edge cases include surrogate pairs, zero-width joiners, skin-tone
    modifiers, and compound emoji sequences that change byte alignment.

    Analysis and impact:
    • Downstream effects include unintended prompt truncation, semantic
    drift, and increased susceptibility to adversarial inputs that
    leverage token boundary manipulation.
    • Attackers can craft inputs that force models into degraded contexts,
    leak system prompts through context misalignment, or trigger unsafe
    completions by exploiting tokenization mismatches.

    Detection:
    • Monitor token length distributions versus character lengths to
    detect anomalies where character count rises but token count balloons.
    • Instrument preprocessing logs to capture unusual byte-sequence
    frequencies and new tokens entering the embedding table.
    • Use synthetic test suites that include emoji variants, combining
    characters, and long multi-byte sequences.

    Mitigation:
    • Implement Unicode normalization (NFC/NFKC) in preprocessing and
    strip or canonicalize zero-width joiners where appropriate.
    • Expand tokenizer training data with diverse emoji and multi-byte
    sequences, or use byte-level tokenizers robust to unseen sequences.
    • Add input sanitation layers that flag or constrain user-supplied
    content with high token/character ratios and apply rate limits or
    transformation policies.

    References / notes:
    • This is a tokenizer-level robustness issue rather than a single
    CVE-class vulnerability; mitigations focus on preprocessing, tokenizer
    coverage, and monitoring.

    🔹 llm_security #tokenization #BPE #unicode #adversarial_ml

    🔗 Source: infosecwriteups.com/the-emoji-

  5. Looks like that salsa class that was on in our Ramsay Lecture theatre last night was pretty energetic. I hope those guys had fun. #telemetry #BPE #energymanagement #Aranet

  6. A minor triumph this morning. Repairing my glove box this morning my colleague and I noticed the lab was at 11 ˚C - bizarrely no one had complained. Ten minutes with box fixed, we looked at BMS data – the "CT" circuit feeding the AHU was off. We traced this back to an event at 0245 on Monday morning. We reported our diagnosis to our BMS colleagues who reset the offending pump restoring the flow. An hour later temperature in the lab is already past 14 ˚C. #BPE #academiclife

  7. Im Schatten des 💩fD Parteitags in #Essen hat die rassistische und islamfeindliche #BPE #PaxEurope eine Kundgebung in #Bottrop angemeldet.

    Nach der Messerattacke in Mannheim gibt es entsprechende Sicherheitsvorkehrungen.

    #NoAFD #NazisStoppen

  8. Manche vergleichen die Situation von #AfD Kandidat #Koch mit dem #Messerangriff gegen #BPE Mitglied #Stürzenberger.
    Aber der Ablauf ist dann doch ein ganz anderer, Tatwerkzeug & Motivation ebenfalls.

    AfD-Gemeinderatskandidat angegriffen
    youtube.com/watch?v=hLGub2OF-P

    AfD-Kandidat Koch in #Mannheim mit #Messer attackiert: #Haftbefehl gegen 25-Jährigen erlassen
    mannheimer-morgen.de/orte/mann

  9. @billroth Wir haben über den Angriff auf Michael Stürzenberger und BPE berichtet und festgestellt, dass die Veranstaltung verhindert wurde. Eine Legitimation eines mutmaßlichen Attentats beinhaltet unser Tweet nicht. Die rassistische Dimension von #BPE muss benannt werden. #Mannheim

  10. Wir haben über den Angriff auf Michael Stürzenberger und BPE berichtet und festgestellt, dass die Veranstaltung verhindert wurde. Eine Legitimation eines mutmaßlichen Attentats beinhaltet unser Tweet nicht. Die rassistische Dimension von #BPE muss benannt werden. #Mannheim

  11. Der Aufwiegler und extrem rechte Hetzer Michael Stürzenberger samt seiner rassistischen Sekte „Bündnis Pax Europa“ wurde offenbar in #Mannheim von einem Mann angegriffen und an der Durchführung ihrer rassistischen Veranstaltung gehindert. #BPE

  12. Kölner Spielmannszug fällt Rassist_innen von #BPE in den Rücken mit Paukenschlag! #k0710

  13. #UPDATE
    Kolleg. unserer #BPE nahmen gestern in #Kreuzberg einen weiteren Verdächtigen fest, der bereits mit #Haftbefehl gesucht wurde.
    Der 22-Jährige befindet sich jetzt in #Untersuchungshaft.

    #PM: berlin.de/polizei/polizeimeldu
    ^tsm

  14. Sonntagmorgen beobachteten Kolleg. unserer #BPE, wie nahe #Alexanderplatz aus einem Auto heraus mit Drogen gehandelt wurde.
    Im #Kokstaxi und in der Wohnung des 42-j. Fahrers wurden u.a. reichlich verkaufsfertiges #Kokain und Bargeld beschlagnahmt.
    #Festnahme, #LKA ermittelt.
    ^tsm

  15. Der Verein #BPE um Michael Stürzenberger verbreitete abermals rassistische Hetze auf dem Bahnhofsvorplatz #Köln.

    Vor Ort war #YenniferInden um die Gegendemo zu stören, so dass ihr Bekannter, ein Reichsbürger, angreifen konnte.

    nrw.social/@Klarmann/110609041

  16. #Borrmann war bereits um 2007 aufgefallen - er versuchte, einen Landesverband der "Bürgerbewegung Pax Europa" (#BPE) zu gründen und betätigte sich bei der Kleinstpartei #DemokratischeLiga. /MS
    come-on.de/lennetal/werdohl/so