Yan Lukashin

Кто держит алфавит

Сидим с командой над проектом. Внедряем агента в саппорт. Я говорю модели: «предложи метрики качества обработки запросов».

Модель выдаёт семь штук. Время первого ответа. Тон голоса. Полнота решения. Удовлетворённость клиента. И ещё три. Команда смотрит, кивает: «нормальные метрики, давайте брать».

Я задаю вопрос: «А почему именно эти семь?»

Тишина. Никто не знает.

«Ну, модель так предложила.»

В этот момент в нашей будущей системе появляются семь определений ключевых слов нашего бизнеса. «Качество». «Удовлетворённость». «Полнота». Их написали не мы. Их предложила модель — на основе того, как эти слова чаще всего встречались в её обучающем корпусе. Через месяц мы будем строить дашборды на этих определениях. Через полгода менять команду — и никто не сможет объяснить, почему «качественный ответ» определяется именно так. Потому что мы это не решали.

Модель решила. Мы просто согласились.

В этой статье — про то, что в этот момент произошло. Почему оно происходит каждый день в каждой команде, использующей LLM. И что с этим делать в понедельник утром.

Что заметил Lerchner

В марте 2026 Александр Лерхнер, Senior Staff Scientist в Google DeepMind, опубликовал работу «The Abstraction Fallacy». Сразу честно: это PhilArchive-препринт, не peer-reviewed журнал. Сам Лерхнер маркирует, что выводы не отражают позицию работодателя.

Сделаем оговорку и пойдём дальше — потому что аргумент сильный.

Прямая цитата из абстракта:

> «Symbolic computation is not an intrinsic physical process. Instead, it is a mapmaker-dependent description. It requires an active, experiencing cognitive agent to alphabetize continuous physics into a finite set of meaningful states.»

Перевод. Любая классификация, любое вычисление, любая категоризация — это описание чьей-то карты. Физика сама по себе категорий не содержит. Без агента, который умеет нарезать континуум на категории, нет ни «единиц», ни «нулей», ни «важного», ни «неважного». Алфавит не дан физикой. Его навязывает наблюдатель.

Дальше Лерхнер делает второй ход — формально разделяет две вещи, которые обычно путают.

Симуляция — это поведенческое подражание. Модель ведёт себя так, как будто решает задачу.

Инстанциация — это внутреннее физическое существование того, что симулируется. Симуляция фотосинтеза не производит глюкозу. Симуляция понимания — не производит понимания.

Философы цитируют 404 Media: «всё это уже излагалось десятилетиями». Это правда — Сёрл написал «Chinese Room» в 1980-м, и за сорок шесть лет на этот аргумент никто не дал убедительный ответ. Лерхнер — это Сёрл-2026 в инженерной упаковке. С DeepMind-аффилиацией и причинной онтологией.

Зачем тогда читать Лерхнера, если есть Сёрл. Затем, что в 1980-м у вас не было LLM в каждом workflow. В 2026-м — есть. Старый философский аргумент стал операционно срочным.

И здесь честная оговорка от меня. Сам Лерхнер пишет про сознание, не про постановку задач LLM. Я расширяю его рамку — и это легитимно, потому что онтологическая логика та же. Но если строгий философ поймает на «вы вытащили его аргумент за пределы сферы применения» — он будет формально прав. Я расширяю осознанно.

Что такое алфавитизация

Бытовое объяснение через цвет.

Когда я говорю «вот этот цвет — красный», я не отражаю физику. Я говорю физическому континууму световых волн от 620 до 750 нанометров: вот эту полосу мы будем называть одним словом. Между «красным» и «оранжевым» нет границы в природе. Граница есть в моём языке, в моей культуре, в моей профессии.

У меня — три категории: красный, оранжевый, жёлтый. У женщины, которая занимается интерьерами — двадцать. У дизайнера, для которого Pantone — рабочий инструмент — двести. У физика, который меряет длину волны — бесконечность.

Все эти алфавиты применимы к одному и тому же спектру. Все они — изобретение человека для координации. Эволюционная функция языка — сжать бесконечную реальность до управляемых категорий, чтобы можно было сказать «там лев слева» и племя успело отбежать.

Алфавит — это инструмент. Этот инструмент изобрёл человек. И всегда — это работа человека.

Что происходит, когда вы говорите LLM «классифицируй письма по важности».

У модели есть свой алфавит «важности». Он выучен на её обучающем корпусе — текстах из интернета, разметке от подрядчиков, RLHF-предпочтениях разметчиков OpenAI или Anthropic. В этом алфавите «важно» — это в среднем «слова urgent, asap, critical, deadline, escalation». Модель применит этот алфавит к вашим письмам.

Ваше «важно» в саппорте может быть совсем другим. У вас «важно» — это «упоминание ключевого клиента из топ-10». У них «важно» — это «слово urgent».

Если вы не определили — модель применит свой алфавит к вашему миру. Потому что у неё нет вашего алфавита, и она применит тот, который у неё есть.

Это и есть alphabetization у Лерхнера. Не философская абстракция. Каждодневное состояние всех систем, использующих LLM без явных определений.

Симуляция vs инстанциация в работе

Сёрл в 1980 году описал мысленный эксперимент. Человек сидит в комнате. Ему дают инструкции на английском: «если видишь такой китайский иероглиф — отвечай таким». В дверь комнаты подают вопросы на китайском, обратно идут ответы на китайском. Снаружи кажется, что человек понимает китайский. Изнутри — он манипулирует символами по правилам без понимания.

Симуляция понимания. Не понимание.

Применительно к вашей работе. Когда вы пишете промпт «оцени качество этого текста», модель не оценивает качество. Она симулирует процесс оценки качества. На вход — текст. На выход — структурированный ответ, который выглядит как оценка качества. Внутри — манипуляция символами по правилам, выученным на обучающем корпусе.

Симуляция выглядит как оценка. Это нормально — она специально обучена так выглядеть. Если бы она выглядела как «random.choice(['хорошо', 'плохо'])» — её бы не покупали за деньги.

Но она не оценивает. Она применяет к вашему тексту усреднённый алфавит «качества» из обучающего корпуса.

Lerchner это формализовал так: «If an artificial system were ever conscious, it would be because of its specific physical constitution, never its syntactic architecture». В переводе: никакая надстройка над синтаксисом не превратит синтаксис в субстрат смысла.

Применительно к нам: никакое масштабирование GPT-N не превратит модель в существо, которое понимает, что значит «качественный ответ» в саппорте именно вашей компании. Потому что это вопрос не объёма параметров, а онтологической категории.

В цикле 1 я уже разбирал смежный механизм в [«Язык — это яд»] — почему LLM устроены как генератор языка, и world model в строгом смысле в них не помещается. Там был фокус на субстрат: язык как lossy compression реальности. Здесь фокус другой: что происходит с вашим бизнесом, когда вы передаёте онтологическую работу симуляции. Если 11-я была про машину, эта — про вас.

Что мы теряем, когда отдаём алфавит

Пять стандартных мест, где алфавит уезжает к модели в реальной работе.

Размытые промпты. «Сделай красиво». «Улучши». «Выбери лучший вариант». В каждом из этих слов — оценочное суждение, которое требует определения. «Лучший по чему?» Если в промпте этого нет — модель достанет своё определение из корпуса.

Метрики без определений. «Качество саппорта», «удовлетворённость клиента», «эффективность процесса». Когда метрика идёт в дашборд без формального определения, в дашборде начинает жить определение модели. Через месяц никто не помнит, что туда зашито.

Классификации без онтологии. «Срочные / несрочные», «важные / неважные», «релевантные / нерелевантные». Каждая бинарная классификация — это решение картографа: вот здесь граница. Если границу не нарисовали — её нарисует модель, по своему среднему усмотрению.

Резюме «по своему усмотрению». «Выдели главное». В этом промпте сидит весь объём вопросов: главное по чему? для кого? в какой ситуации? Модель ответит на это сама — выбрав то, что в её корпусе чаще всего отмечалось как «главное».

Ранжирование без критерия. «Расставь по приоритету». То же самое. Приоритет относительно чего? Если не указали — модель решит.

Через три месяца такой работы у вас в системе пять чужих определений ключевых слов вашего бизнеса. Через год — двадцать пять. Когда команда меняется, никто не помнит, почему «важное» определяется именно так. Потому что это решали не люди.

Ответы при этом могут быть отличные — для среднего бизнеса, по среднему алфавиту. У вас выходит симуляция вашего бизнеса под чужую онтологию.

Lerchner: «mapmaker-dependent description». Описание зависит от того, кто рисует карту. Если карту рисует не вы — у вас в системе чужое описание вашего же бизнеса.

Как удержать алфавит

Решение операционное. Никакой философии в реализации.

Vocabulary как артефакт. Список ключевых терминов вашего бизнеса с определениями. Внутренний рабочий документ. «Важный клиент = X. Срочная задача = Y. Качественный текст = Z». Раз в квартал пересматривается. Это не педантизм. Это способ держать собственный алфавит.

Параллель с программированием: в любой нормальной кодовой базе есть глоссарий типов, словарь констант, документация на ключевые сущности. У вас в бизнесе должно быть то же самое — потому что теперь у вас не отдел из ста человек, у которых терминология передаётся через корпоративный фольклор. У вас система, в которой LLM принимает решения за вас. Терминология должна быть зафиксирована.

Промпт как контракт. Если в промпте есть слово, не определённое в vocabulary — либо определи в промпте локально, либо добавь в vocabulary. Это уже было разобрано в [«Промпт — пожелание. Спека — контракт»] — здесь та же логика с онтологическим акцентом. Промпт без определений работает как передача алфавита. Сколько ни оттачивай формулировку — пока в ней есть размытые слова без определения, модель сама решит, что они значат.

Картограф в команде. Кто-то один отвечает за алфавит. Это позиция в работе, не строка в штатном расписании. Просто человек с правом сказать: «здесь определение слабое, переписать». Может быть у CEO, у продакта, у тимлида — но кто-то один её должен держать.

Внешний валидатор там, где можно. Если результат проверяем формально — пусть проверяется формально. Тесты для кода. Регулярные выражения для извлечения сущностей. Структурный JSON-вывод с фиксированной схемой. Это не освобождает от vocabulary, но снимает часть давления — модель не может уехать в свой алфавит за пределы заданной формы.

В понедельник утром

Конкретно — что меняется в работе с завтра, если вы согласились с прочитанным.

Откройте свой основной промпт. Найдите все размытые термины: «лучше», «качественнее», «важнее», «правильнее», «по аналогии», «как обычно», «в нашем стиле». Это места, где алфавит уехал. Каждое такое слово — это передача права определять смысл модели.

Вернуть алфавит можно одним движением — определением в начале промпта или в отдельном vocabulary-файле, который подгружается в контекст. Это занимает час на промпт. Окупается за первый же запуск, в котором модель работает на вашем алфавите. Без vocabulary она бы дала средний результат из обучающего корпуса.

Соберите vocabulary вашей команды. Десять самых частых терминов, которые встречаются в задачах для модели. Напротив каждого — определение в одну строку. Это не бюрократический документ. Это карта, по которой работает ваш бизнес.

Назначьте картографа. Один человек с правом сказать «здесь определение слабое, перепиши». Без этой позиции vocabulary не живёт — он постепенно зарастает «практикой».

Это не оптимизация промптов. Это смена позиции. От пользователя инструмента — к картографу, который использует инструмент в своих рамках.

Закрытие

LLM симулируют. Симулируют отлично — для того их и обучали. Сёрл в 1980-м, Лерхнер в 2026-м говорят одно и то же: симуляция и инстанциация — разные онтологические категории, и никакая надстройка над одним не превращается в другое.

Из этого не следует «не пользоваться LLM». Следует другое. Сохранять картографическую позицию по отношению к ним. Знать, где у вас определения, а где — пробелы, которые модель закроет своим средним алфавитом. Держать карандаш в своей руке.

Курс [AI Architect] — это тренажёр удержания алфавита. Внутренние spec, vocabulary, метрики, контур валидации. Не лекции про инструменты. Сборка позиции, в которой вы остаётесь картографом, даже когда модель работает быстрее вас.

Алфавит держит человек. В этом разница между картографом и пользователем чужой карты.

Источники и данные

- Alexander Lerchner, The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness (PhilArchive, март 2026, обновл. апрель 2026): https://philarchive.org/rec/LERTAF
- Google DeepMind Publications #231971: https://deepmind.google/research/publications/231971/
- Alexander Lerchner — Google Scholar: https://scholar.google.com/citations?user=wBxAt8cAAAAJ&hl=en
- 404 Media, Google DeepMind Paper Argues LLMs Will Never Be Conscious: https://www.404media.co/google-deepmind-paper-argues-llms-will-never-be-conscious/
- Searle, J. R. (1980). Minds, Brains, and Programs — Behavioral and Brain Sciences 3(3): https://web.archive.org/web/20071210043312/http://members.aol.com/NeoNoetics/MindsBrainsPrograms.html
- Higgins, Burgess, Lerchner et al. Understanding disentangling in β-VAE (arXiv:1804.03599): https://arxiv.org/abs/1804.03599
- Bogdan, A. The Abstraction Fallacy in Light of Dual-Closure: A Response to Lerchner (PhilArchive, 2026): https://philarchive.org/archive/ROOTAF
- Manlius Substack, Can AI Simulate Consciousness? A Study (разбор работы Lerchner): https://manlius.substack.com/p/can-ai-simulate-consciousness-a-study