Правильная форма побеждает подавляющим большинством
Суммарно по русско-, казахско- и англоязычному сегментам архива qazlake. Ошибка живёт только в узком жанре инициальных сокращений — в основном в госдокументах и их телеграм-перепостах.
Почему раньше казалось, что ошибка доминирует? Предыдущий срез фокусировался только на записях с инициальной формой (К.-Ж. / К.К.). В этом узком жанре «К.К.» действительно встречается чаще. Но инициалы — редкая форма: живой текст зовёт Токаева «Касым-Жомарт Токаев» или «Президент» — и в 99 случаях из 100 имя пишется верно.
Как росло число правильных упоминаний по годам
До 2019 года Токаев — Спикер Сената, упоминаний десятки-сотни в год. После инаугурации кривая взлетает до десятков тысяч в год. Ошибочная форма видна тонкой полоской сверху столбцов.
Почему доля инициальных сокращений такая маленькая
Инициальное сокращение имени — редкая форма в журналистике: живой текст предпочитает полное имя или должность. Инициалы появляются преимущественно в формальных документах — указах, совместных заявлениях, протоколах, подписях под фото. Именно в этом жанре живёт ошибка.
В четырёх столбцах сверху показаны образцы частоты каждой формы — как часто она встречается в корпусе в отдельной строке. Суммы столбцов не складываются в общее число упоминаний: одна и та же статья обычно содержит имя Токаева несколько раз и сразу в нескольких формах («Президент Касым-Жомарт Токаев… затем Токаев… позже Глава государства»). Оценка такая: — — суммарное число упоминаний Токаева в любой форме во всём корпусе qazlake, инициальные сокращения (К.-Ж./К.К.) встречаются в — от этих упоминаний. Это ожидаемо: журналисты пишут «Касым-Жомарт Токаев» или «Президент Токаев» — инициалы живут в другом жанре: указах, совместных заявлениях, протокольных списках. Оттуда ошибочная форма растекается по Telegram-каналам, агрегаторам и госсайтам, которые тиражируют госдокументы без правки.
Помесячная хронология: правильные и ошибочные формы
Столбцы сверху — ошибочная форма «К.К.» (красный), снизу — правильная «К.-Ж.» (зелёный). Вертикальные линии — инаугурация Токаева (19 марта 2019) и первый зафиксированный в архиве случай «К.К. Токаев».
qazlake.articles, media.tg_messages, ortcom_articles,
telegram_messages, raw_vault.raw_ingestion, media.articles.
Агрегация — помесячная.
География и категории источников
Разбивка всех попаданий по типу источника. Ошибочная форма почти полностью локализована в русскоязычных казахстанских госресурсах и Telegram-каналах, тиражирующих госдокументы.
Топ-20 каналов и доменов
Для каждого источника показано распределение по верной «К.-Ж.» и ошибочной «К.К.». Каналы, где обе формы сосуществуют, — маркер «замороженной ошибки».
Годовой срез: как меняется доля ошибочной формы
Доля ошибочной формы «К.К.» в общем объёме инициальных сокращений за каждый год.
Где живёт ошибка: срез по типам источников
Корпус попаданий сильно перекошен в сторону Telegram-каналов — но это не значит, что ошибка «телеграмная». Разбивка по сегментам показывает, что доля ошибочной формы зависит от жанра: госсайты и агрегаторы почти не пишут «К.-Ж.», журналисты — пишут.
Сегменты: Telegram — echo-sounder + приоритетные каналы; Казахстанские СМИ — tengrinews, zakon.kz, kursiv, kazinform и т.д.; Госсайты РК — akorda.kz, primeminister.kz, ortcom.kz, parlam.kz и др.; Прочие — зарубежные СМИ, агрегаторы и дипмиссии.
akorda.kz: где закрепилась ошибка
Выгрузка из встроенного поиска официального сайта Президента РК. Из 43 результатов поиска по формам «К.К. Токаев»/«К.К.Токаев» к самому Президенту относятся — документа — остальные отфильтрованы как материалы о других чиновниках с инициалами К.К. (Масимов К.К., Абдрахманов К.К., Айтмухаметов К.К., Кушербаев К.К.). Запросы «К.-Ж. Токаев» и «К.-Ж. К. Токаев» на akorda.kz дают ноль результатов.
Все документы akorda.kz про Токаева с ошибочной формой
Все упоминания
— записей. Можно фильтровать по форме, категории и году. Клик по строке открывает исходный документ.
| Дата | Форма | Категория | Источник | Контекст |
|---|
Как строился индекс
Источники
Использовались все публично-доступные таблицы внутренней базы qazlake:
normalized.articles— 1 225 122 нормализованных статейmedia.tg_messages— 4 175 896 Telegram-сообщений (echo-sounder)public.articles— 499 044 статьи казахстанских СМИpublic.article_enrichments— 168 431 summary/quotepublic.telegram_messages— 67 184 сообщения приоритетных каналовpublic.ortcom_articles— 49 168 пресс-релизовmedia.articles— 49 664 статьиpublic.article_translations— 5 058 переводовpublic.smi_messages— 2 846 сообщений- akorda.kz — встроенный поиск официального сайта Президента
Счётчики получены через SELECT count(*) на работающей базе qazlake. Суммарно корпус — 5 455 614 документов (normalized.articles 1.22M, media.tg_messages 4.18M, media.articles 50k, media.blog_posts 5k).
Скоуп версии v8 — все три языка: русский (Касым-Жомарт/К.-Ж.), казахский (Қасым-Жомарт/Қ.-Ж. Тоқаев), английский (Kassym-Jomart/K.-J. Tokayev). Диапазон дат: 1975–2026.
Регулярные выражения v8 (case-insensitive, 3 языка)
RU полное верно: Касым\s*-\s*Жомарт
RU полное ошибка: Касым\s+Жомарт (без дефиса)
RU инициалы верно: К\.\s*-\s*Ж\.(?:\s*К\.)?\s*Токаев
RU инициалы ошибка: К\.\s*К\.\s*Токаев
KK полное верно: Қасым\s*-\s*Жомарт
KK полное ошибка: Қасым\s+Жомарт
KK инициалы верно: Қ\.\s*-\s*Ж\.(?:\s*Қ\.)?\s*Тоқаев
KK инициалы ошибка: Қ\.\s*Қ\.\s*Тоқаев
EN полное верно: Kas{1,2}ym\s*-\s*Jomart
EN полное ошибка: Kas{1,2}ym\s+Jomart
EN инициалы верно: K\.\s*-\s*J\.(?:\s*K\.)?\s*Tokayev
EN инициалы ошибка: K\.\s*K\.\s*Tokayev
Поиск ведётся PostgreSQL-оператором ~* (case-insensitive) по тексту, где
все варианты дефисов (Unicode U+2010…U+2014, U+00AD, минус U+2212)
заменены на обычный дефис, а неразрывные и тонкие пробелы — на обычный пробел.
Пробелы между инициалами не считаются значимыми — решающий признак это дефис
(К.-Ж. — верно, К.К. — ошибка).
Оба шаблона требуют «Токаев» сразу после инициалов, что отсекает однофамильцев с
теми же инициалами (Масимов К.К., Абдрахманов К.К.). Дополнительно документ должен упоминать
Токаева или Касым-Жомарта в заголовке или теле — иначе отбрасывается.
Дедупликация и фильтрация
Дедупликация — в первую очередь по URL. Если URL нет (как у Telegram-сообщений), используется пара source_table::row_id — гарантированно уникальная в пределах таблицы. Это позволило сохранить 31 Telegram-запись, ранее терявшуюся в хеш-дедупе.
Для akorda.kz применён дополнительный фильтр по контексту: из 43 результатов встроенного поиска убраны 21 документ, где «К.К.» относится к другим чиновникам (Масимов, Абдрахманов, Кушербаев, Айтмухаметов), а не к Президенту. Оставшиеся 14 — все о самом Токаеве, все с ошибочной формой.
Ограничение: исходная выгрузка хранит фрагмент ±500 символов вокруг каждого совпадения, поэтому длинные статьи с обеими формами целиком не разбираются — определение формы опирается на SQL-флаги has_kzh/has_kk по полному тексту документа. Счётчик «упоминаний» — оценочный, по фрагменту.
Охват
Общий корпус упоминаний «Токаев» — — (из всех 9 таблиц + akorda). С инициалами — — уникальных записей. Это baseline для оценки распространённости ошибки: — от всех записей с инициальной формой содержат ошибочное написание К.К.
Версия методики: v8 (2026-04-22). Case-insensitive SQL через PostgreSQL ~*, три языка одновременно, охват 1975–2026. Предыдущие версии: v7 учитывала только русский и только инициальную форму.