qazlake · лингвистический мониторинг

К.-Ж. против К.К.

База qazlake
Таблиц 9
Записей просмотрено ≈6M
Дата среза

Имя Касым-Жомарт Токаев — сложносоставное, пишется через дефис на всех трёх языках: Касым-Жомарт Токаев (рус.), Қасым-Жомарт Тоқаев (қаз.), Kassym-Jomart Tokayev (eng.). Единственная правильная инициальная форма — «К.-Ж.» / «Қ.-Ж.» / «K.-J.». Так пишут двухкоренные имена: Жан-Поль → Ж.-П.; Анна-Мария → А.-М. (справка грамота.ру). Ошибочная форма «К.К.» / «Қ.Қ.» / «K.K.» без дефиса впервые зафиксирована в архиве 22 декабря 2017 — выступление Токаева (тогда Спикера Сената) на Саммите ОИС, опубликованное на zakon.kz. Массово закрепилась после инаугурации 19 марта 2019. → Полный срез: русский, казахский, английский сегменты корпуса qazlake, все доступные годы (1975–2026). Учитываются только документы с явным упоминанием Токаева, чтобы отсечь однофамильцев-тёзок (Масимов К.К., Абдрахманов К.К.).

Картина целиком · 1975–2026 · 3 языка

Правильная форма побеждает подавляющим большинством

Суммарно по русско-, казахско- и англоязычному сегментам архива qazlake. Ошибка живёт только в узком жанре инициальных сокращений — в основном в госдокументах и их телеграм-перепостах.

Всего упоминаний Токаева (RU + KK + EN)
Верно
Ошибка

Почему раньше казалось, что ошибка доминирует? Предыдущий срез фокусировался только на записях с инициальной формой (К.-Ж. / К.К.). В этом узком жанре «К.К.» действительно встречается чаще. Но инициалы — редкая форма: живой текст зовёт Токаева «Касым-Жомарт Токаев» или «Президент» — и в 99 случаях из 100 имя пишется верно.

Весь архив qazlake
документов просмотрено (1975–2026)
из них с инициалами →
Инициальные формы (RU/KK/EN)
записей К.-Ж. / Қ.-Ж. / K.-J. и К.К. / Қ.Қ. / K.K.
Верная форма
Ошибочная форма
Хронология · 2011–2026

Как росло число правильных упоминаний по годам

До 2019 года Токаев — Спикер Сената, упоминаний десятки-сотни в год. После инаугурации кривая взлетает до десятков тысяч в год. Ошибочная форма видна тонкой полоской сверху столбцов.

Верная форма (RU + KK + EN) Ошибочная форма
Контекст — как пишут Токаева

Почему доля инициальных сокращений такая маленькая

Инициальное сокращение имени — редкая форма в журналистике: живой текст предпочитает полное имя или должность. Инициалы появляются преимущественно в формальных документах — указах, совместных заявлениях, протоколах, подписях под фото. Именно в этом жанре живёт ошибка.

«Касым-Жомарт Токаев»полное имя
«Президент Токаев» / «Глава государства»должность
«Токаев»только фамилия
«К.-Ж.» / «К.К.»инициалы — фокус исследования

В четырёх столбцах сверху показаны образцы частоты каждой формы — как часто она встречается в корпусе в отдельной строке. Суммы столбцов не складываются в общее число упоминаний: одна и та же статья обычно содержит имя Токаева несколько раз и сразу в нескольких формах («Президент Касым-Жомарт Токаев… затем Токаев… позже Глава государства»). Оценка такая: — суммарное число упоминаний Токаева в любой форме во всём корпусе qazlake, инициальные сокращения (К.-Ж./К.К.) встречаются в от этих упоминаний. Это ожидаемо: журналисты пишут «Касым-Жомарт Токаев» или «Президент Токаев» — инициалы живут в другом жанре: указах, совместных заявлениях, протокольных списках. Оттуда ошибочная форма растекается по Telegram-каналам, агрегаторам и госсайтам, которые тиражируют госдокументы без правки.

Верная форма — К.-Ж. (с дефисом) верно
записей · упоминаний
все варианты пробелов: К.-Ж. Токаев · К.-Ж.Токаев · К.-Ж. К. Токаев · К.-Ж. К.Токаев
Ошибочная форма — К.К. (без дефиса) ошибка
записей · упоминаний
все варианты пробелов: К.К. Токаев · К.К.Токаев · К. К. Токаев
Тренд 1 · Когда

Помесячная хронология: правильные и ошибочные формы

Столбцы сверху — ошибочная форма «К.К.» (красный), снизу — правильная «К.-Ж.» (зелёный). Вертикальные линии — инаугурация Токаева (19 марта 2019) и первый зафиксированный в архиве случай «К.К. Токаев».

Источник: qazlake.articles, media.tg_messages, ortcom_articles, telegram_messages, raw_vault.raw_ingestion, media.articles. Агрегация — помесячная.
Тренд 2 · Где

География и категории источников

Разбивка всех попаданий по типу источника. Ошибочная форма почти полностью локализована в русскоязычных казахстанских госресурсах и Telegram-каналах, тиражирующих госдокументы.

 

Топ-20 каналов и доменов

Для каждого источника показано распределение по верной «К.-Ж.» и ошибочной «К.К.». Каналы, где обе формы сосуществуют, — маркер «замороженной ошибки».

Тренд по годам

Годовой срез: как меняется доля ошибочной формы

Доля ошибочной формы «К.К.» в общем объёме инициальных сокращений за каждый год.

Тренд · Кто ошибается

Где живёт ошибка: срез по типам источников

Корпус попаданий сильно перекошен в сторону Telegram-каналов — но это не значит, что ошибка «телеграмная». Разбивка по сегментам показывает, что доля ошибочной формы зависит от жанра: госсайты и агрегаторы почти не пишут «К.-Ж.», журналисты — пишут.

Сегменты: Telegram — echo-sounder + приоритетные каналы; Казахстанские СМИ — tengrinews, zakon.kz, kursiv, kazinform и т.д.; Госсайты РК — akorda.kz, primeminister.kz, ortcom.kz, parlam.kz и др.; Прочие — зарубежные СМИ, агрегаторы и дипмиссии.

Первоисточник

akorda.kz: где закрепилась ошибка

Выгрузка из встроенного поиска официального сайта Президента РК. Из 43 результатов поиска по формам «К.К. Токаев»/«К.К.Токаев» к самому Президенту относятся документа — остальные отфильтрованы как материалы о других чиновниках с инициалами К.К. (Масимов К.К., Абдрахманов К.К., Айтмухаметов К.К., Кушербаев К.К.). Запросы «К.-Ж. Токаев» и «К.-Ж. К. Токаев» на akorda.kz дают ноль результатов.

Первое упоминание Токаева с К.К. на akorda.kz
От инаугурации до ошибки
инаугурация — 19.03.2019
Правильные формы на akorda.kz
0
«К.-Ж.» не встречается ни разу
Последний документ с ошибкой

Все документы akorda.kz про Токаева с ошибочной формой

Разведка

Все упоминания

записей. Можно фильтровать по форме, категории и году. Клик по строке открывает исходный документ.

Дата Форма Категория Источник Контекст
Методология

Как строился индекс

Источники

Использовались все публично-доступные таблицы внутренней базы qazlake:

  • normalized.articles — 1 225 122 нормализованных статей
  • media.tg_messages — 4 175 896 Telegram-сообщений (echo-sounder)
  • public.articles — 499 044 статьи казахстанских СМИ
  • public.article_enrichments — 168 431 summary/quote
  • public.telegram_messages — 67 184 сообщения приоритетных каналов
  • public.ortcom_articles — 49 168 пресс-релизов
  • media.articles — 49 664 статьи
  • public.article_translations — 5 058 переводов
  • public.smi_messages — 2 846 сообщений
  • akorda.kz — встроенный поиск официального сайта Президента

Счётчики получены через SELECT count(*) на работающей базе qazlake. Суммарно корпус — 5 455 614 документов (normalized.articles 1.22M, media.tg_messages 4.18M, media.articles 50k, media.blog_posts 5k). Скоуп версии v8все три языка: русский (Касым-Жомарт/К.-Ж.), казахский (Қасым-Жомарт/Қ.-Ж. Тоқаев), английский (Kassym-Jomart/K.-J. Tokayev). Диапазон дат: 1975–2026.

Регулярные выражения v8 (case-insensitive, 3 языка)

RU полное верно:   Касым\s*-\s*Жомарт
RU полное ошибка: Касым\s+Жомарт   (без дефиса)
RU инициалы верно:   К\.\s*-\s*Ж\.(?:\s*К\.)?\s*Токаев
RU инициалы ошибка: К\.\s*К\.\s*Токаев

KK полное верно:   Қасым\s*-\s*Жомарт
KK полное ошибка: Қасым\s+Жомарт
KK инициалы верно:   Қ\.\s*-\s*Ж\.(?:\s*Қ\.)?\s*Тоқаев
KK инициалы ошибка: Қ\.\s*Қ\.\s*Тоқаев

EN полное верно:   Kas{1,2}ym\s*-\s*Jomart
EN полное ошибка: Kas{1,2}ym\s+Jomart
EN инициалы верно:   K\.\s*-\s*J\.(?:\s*K\.)?\s*Tokayev
EN инициалы ошибка: K\.\s*K\.\s*Tokayev

Поиск ведётся PostgreSQL-оператором ~* (case-insensitive) по тексту, где все варианты дефисов (Unicode U+2010…U+2014, U+00AD, минус U+2212) заменены на обычный дефис, а неразрывные и тонкие пробелы — на обычный пробел. Пробелы между инициалами не считаются значимыми — решающий признак это дефис (К.-Ж. — верно, К.К. — ошибка). Оба шаблона требуют «Токаев» сразу после инициалов, что отсекает однофамильцев с теми же инициалами (Масимов К.К., Абдрахманов К.К.). Дополнительно документ должен упоминать Токаева или Касым-Жомарта в заголовке или теле — иначе отбрасывается.

Дедупликация и фильтрация

Дедупликация — в первую очередь по URL. Если URL нет (как у Telegram-сообщений), используется пара source_table::row_id — гарантированно уникальная в пределах таблицы. Это позволило сохранить 31 Telegram-запись, ранее терявшуюся в хеш-дедупе.

Для akorda.kz применён дополнительный фильтр по контексту: из 43 результатов встроенного поиска убраны 21 документ, где «К.К.» относится к другим чиновникам (Масимов, Абдрахманов, Кушербаев, Айтмухаметов), а не к Президенту. Оставшиеся 14 — все о самом Токаеве, все с ошибочной формой.

Ограничение: исходная выгрузка хранит фрагмент ±500 символов вокруг каждого совпадения, поэтому длинные статьи с обеими формами целиком не разбираются — определение формы опирается на SQL-флаги has_kzh/has_kk по полному тексту документа. Счётчик «упоминаний» — оценочный, по фрагменту.

Охват

Общий корпус упоминаний «Токаев» — (из всех 9 таблиц + akorda). С инициалами — уникальных записей. Это baseline для оценки распространённости ошибки: от всех записей с инициальной формой содержат ошибочное написание К.К.

Версия методики: v8 (2026-04-22). Case-insensitive SQL через PostgreSQL ~*, три языка одновременно, охват 1975–2026. Предыдущие версии: v7 учитывала только русский и только инициальную форму.