Что такое LLM и как они работают: объяснение для новичка
Если вы ни разу не открывали ChatGPT, в голове наверняка крутится один и тот же образ: где-то на серверах сидит очень умная программа, которая знает почти всё и отвечает на вопросы как живой эксперт. Это удобная картинка, но она неверная почти во всём. И именно из-за этой неверной картинки новички разочаровываются: спрашивают одно и то же дважды и получают разные ответы, ловят модель на выдуманных фактах, не понимают, почему она вдруг не знает про вчерашние новости.
Эта глава убирает магию и оставляет механику. После неё вы будете понимать две главные странности, которые сбивают всех с толку. Первая: почему ChatGPT отвечает по-разному на один и тот же вопрос. Вторая: почему он иногда уверенно выдумывает то, чего не существует. Когда вы поймёте, как устроена машина внутри, эти странности перестанут быть странностями и превратятся в понятные свойства инструмента, которым вы научитесь пользоваться.
Никаких формул здесь не будет. Только аналогии, примеры и здравый смысл.
Что вообще скрывается за тремя буквами LLM
LLM расшифровывается как Large Language Model, по-русски это большая языковая модель. Разберём по словам, потому что в названии уже спрятана половина ответа на вопрос «как это работает».
Слово «языковая» означает, что эта штука работает с текстом. Она не база данных, не калькулятор, не поисковик. Её родная стихия это слова и то, как они складываются друг с другом.
Слово «модель» означает, что это не набор правил, написанных программистом, а нечто, обученное на примерах. Обычная программа устроена так: «если пользователь ввёл число больше ста, выведи скидку». Человек заранее прописал каждое правило. Языковая модель устроена иначе. Никто не писал ей правило «после слова трава обычно идёт зелёная». Она сама вытащила миллионы таких закономерностей из текстов, которые прочитала. Внутри неё нет ни одной фразы на человеческом языке вроде «делай так-то». Там только огромная сетка чисел, которые настроились на закономерности языка.
Слово «большая» говорит про размер этой сетки чисел. Эти числа называют параметрами или весами. У известной модели GPT-3, вышедшей в 2020 году, таких параметров 175 миллиардов. Представьте 175 миллиардов крошечных ручек-регуляторов, каждая из которых чуть-чуть подкручена в процессе обучения. Именно сочетание положений всех этих ручек и определяет, что модель ответит. Чем больше параметров и чем больше текста модель прочитала при обучении, тем, как правило, она способнее. GPT-3 обучали примерно на 300 миллиардах слов, а это сотни гигабайт отфильтрованного текста: книги, статьи, форумы, Википедия, куски интернета.
Запомните этот образ: огромная сетка из миллиардов чисел, настроенная на закономерности языка. Это и есть LLM. Всё остальное в главе вырастает следствиями из этого устройства.
Главный секрет: модель просто угадывает следующее слово
Теперь самое важное предложение во всей главе. Вся работа LLM сводится к одной задаче: предсказать, какой кусочек текста идёт следующим.
Звучит до обидного просто, но это правда. Вы даёте модели начало фразы, а она прикидывает, что вероятнее всего стоит дальше. Потом добавляет этот кусочек и снова прикидывает, что идёт после уже удлинённой фразы. И так шаг за шагом, кусочек за кусочком, пока не наберётся целый ответ.
Самая точная бытовая аналогия это автодополнение в телефоне. Вы набираете «Привет, как», и телефон предлагает «дела». Он не понимает, что такое дела и что такое приветствие. Он просто видел миллионы сообщений, где после «как» шло «дела», и предлагает самый частый вариант. LLM делает ровно то же самое, только в масштабе, который трудно вообразить: она обучена не на ваших сообщениях, а на сотнях миллиардов слов, и предсказывает не одно следующее слово, а способна продолжать текст абзацами и страницами, оставаясь связной.
Вот здесь и прячется первое прозрение для новичка. Когда вы спрашиваете «Какая столица Франции», модель не лезет в справочник и не «вспоминает факт». Она достраивает текст. В тех миллиардах предложений, на которых она училась, после «столица Франции это» почти всегда шло «Париж». Поэтому она и выдаёт «Париж», не потому что знает географию, а потому что это статистически самое вероятное продолжение. Чаще всего такой подход даёт верный ответ, ведь в текстах человечества правда встречается чаще лжи. Но иногда, как мы увидим дальше, он подводит.
Что такое токен и почему модель не видит буквы
Я всё время говорю «кусочек текста», а не «слово». Это важно. Модель работает не словами и не буквами, а единицами, которые называют токенами.
Токен это фрагмент текста. Иногда это целое слово, иногда часть слова, иногда знак препинания. Короткие частые слова обычно становятся одним токеном целиком. Длинные или редкие слова режутся на несколько кусков. Грубо говоря, английское слово средней длины это примерно один-два токена, а длинное слово может развалиться на три-четыре.
Зачем это знать новичку? Затем, что из-за токенов всплывает забавная слабость, на которой ловят любую модель. Попросите ChatGPT посчитать, сколько букв «р» в слове «земляника». Он вполне может ошибиться. Звучит дико: машина, способная написать эссе, не может пересчитать буквы. Но если вспомнить про токены, всё встаёт на места. Модель не видит слово как цепочку букв з-е-м-л-я-н-и-к-а. Она видит его как один-два укрупнённых токена-кусочка. Отдельные буквы внутри этих кусочков для неё не существуют так, как для нас. Это как просить человека на слух сосчитать буквы в слове, которое он знает только целиком и никогда не видел написанным.
Тот же эффект ломает арифметику. Модель не считает «два плюс два» как калькулятор. Она видела в текстах, что после «2+2=» обычно стоит «4», и предсказывает «4». Для простых случаев это работает, потому что таких примеров в текстах море. Но дай ей перемножить два больших числа, которых она в таком виде не встречала, и она начнёт угадывать, а не вычислять, и легко промахнётся.
Главный вывод из этого раздела: LLM не читает текст как человек и не понимает его как человек. Она оперирует токенами и вероятностями. Держите это в голове, и оно объяснит половину её странностей.
Откуда модель всё это знает: два этапа обучения
Чтобы понять следующие странности, нужно коротко заглянуть в то, как модель появляется на свет. Обучение идёт в два этапа, и они принципиально разные.
Первый этап называют претренировкой. Модели скармливают гигантский объём текста (для крупных моделей это десятки и сотни терабайт) и заставляют играть в одну игру миллиарды раз. Игра простая: закрываем следующее слово и просим угадать. Угадала, и хорошо. Ошиблась, и тогда чуть-чуть подкручиваем те самые миллиарды ручек-параметров, чтобы в следующий раз было точнее. Повторяем неисчислимое число раз на огромных компьютерах с десятками мощных видеокарт. По итогам этого этапа модель впитывает грамматику, факты, стиль, логику рассуждений, всё, что закодировано в человеческих текстах. Но на этом этапе она ещё не помощник, а скорее очень начитанный генератор продолжений: дай ей вопрос, и она может вместо ответа выдать ещё десять похожих вопросов, потому что в интернете вопросы часто идут списками.
Второй этап превращает этот сырой генератор в вежливого ассистента. Его называют дообучением, или файн-тюнингом. Модели показывают примеры хороших диалогов: вот вопрос, вот правильный полезный ответ. А потом подключают людей, которые оценивают ответы модели (этот лучше, этот хуже), и модель подстраивается под человеческие предпочтения. Этот механизм с обратной связью от людей коротко зовут RLHF. Именно благодаря ему ChatGPT отвечает на вопрос ответом, а не списком новых вопросов, держится вежливо и старается быть полезным.
У второго этапа есть важный побочный эффект, к которому мы ещё вернёмся. Раз модель подкручивали под то, что нравится людям, она научилась звучать приятно и уверенно. А людям нравятся уверенные, складные ответы. Поэтому модель склонна выдавать гладкий убедительный текст даже тогда, когда сама «не уверена». Эту склонность нравиться называют сикофантией, и она прямо влияет на доверие к ответам.
Почему один и тот же вопрос даёт разные ответы
Вот мы и дошли до первой обещанной загадки. Вы задаёте ChatGPT один и тот же вопрос дважды и получаете два разных ответа. Многие решают, что инструмент сломан или глючит. Ничего подобного. Это устроено так специально.
Вспомните механику предсказания. На каждом шаге модель не выбирает одно-единственное следующее слово. Она вычисляет вероятности для множества вариантов сразу. Например, после фразы «Сегодня погода» внутри модели может получиться примерно так: «хорошая» вероятно, «отличная» тоже вероятно, «ужасная» менее вероятно, «зелёная» почти невозможно. Дальше встаёт вопрос: какой из вариантов взять?
Можно всегда брать самый вероятный. Тогда ответы будут почти одинаковыми каждый раз. Но текст получится скучным, предсказуемым и каким-то механическим, всегда самая безопасная серединка. Поэтому разработчики добавили управляемую случайность. Модель не всегда хватает топовый вариант, а иногда выбирает из нескольких подходящих. Этот процесс выбора с долей случайности называют сэмплированием, а степень случайности регулирует параметр с названием температура.
Аналогия с температурой простая. Низкая температура это осторожный, сухой собеседник, который всегда говорит самое ожидаемое. Высокая температура это раскованный фантазёр, который чаще выдаёт неожиданное. На технической шкале температура обычно идёт от нуля примерно до двойки. Около нуля модель почти всегда берёт самый вероятный токен, и ответы выходят стабильными и однообразными. Ближе к единице и выше появляется разнообразие, креатив, но и непредсказуемость растёт.
Когда вы пользуетесь ChatGPT через обычное окно чата, температура выставлена где-то посередине, так, чтобы ответы были живыми, а не как у робота. Именно из-за этой ненулевой случайности два одинаковых вопроса дают два разных ответа. Попросите модель написать одно предложение про кошек три раза подряд, и получите три разных предложения. Это не баг. Это та самая ручка случайности в действии.
Маленькая, но честная оговорка: даже выкрутив температуру в ноль, вы не всегда получите абсолютно одинаковый ответ дважды. На огромных вычислениях накапливаются крошечные технические расхождения. Но для практики достаточно запомнить главное: разные ответы на один вопрос это норма и встроенное свойство, а не поломка.
Почему модель уверенно выдумывает: галлюцинации
Вторая обещанная загадка, пожалуй, самая важная для безопасного использования. Иногда LLM выдаёт информацию, которая звучит абсолютно правдоподобно, подана уверенным тоном, со всеми деталями, и при этом полностью выдумана. У этого явления есть специальное название: галлюцинации.
Чтобы понять, откуда они берутся, снова вернёмся к главному секрету. Задача модели в том, чтобы выдать вероятное продолжение текста, а не проверенный факт. У неё внутри нет встроенного детектора правды. Она не сверяется с реальностью. Она достраивает то, что статистически похоже на правильный ответ.
Разберём на живом примере. Вы просите: «Приведи цитату Эйнштейна о счастье». Модель видела тысячи текстов, где после «Эйнштейн сказал» шла какая-нибудь красивая фраза. Она знает, как выглядит цитата великого человека: возвышенно, афористично, про жизнь и смысл. И она с готовностью сочиняет такую фразу: грамматически безупречную, в духе Эйнштейна, идеально подходящую по форме. Одна беда: Эйнштейн этого никогда не говорил. Модель не соврала намеренно. Она честно выполнила свою работу, выдала вероятное продолжение. Просто вероятное и правдивое это не одно и то же.
Ещё опаснее ситуация с источниками. Попросите «дай пять научных статей о влиянии кофе на сон», и модель легко выдаст пять названий статей, с авторами, журналами и годами. Выглядит безупречно. Проблема в том, что половины этих статей не существует. Модель знает, как выглядит ссылка на научную работу, и собирает правдоподобную по форме, не имея способа проверить, реальна ли она.
Это не теоретическая страшилка. В 2023 году американский адвокат подал в суд документ, где ссылался на шесть судебных дел, которые ему сгенерировал ChatGPT. Дел не существовало в природе. Суд оштрафовал адвоката. В 2025 году похожая история повторилась с другим юристом и четырьмя выдуманными делами. А масштабное исследование BBC в начале 2025 года показало, что больше половины ответов популярных ассистентов на новостные вопросы содержали существенные ошибки.
Важно правильно понять природу проблемы. Галлюцинации это не временный детский недостаток, который скоро вылечат полностью. Это побочный эффект самого устройства LLM: статистическое предсказание без проверки фактов. Даже у лучших моделей на 2026 год остаётся базовый уровень выдумок порядка нескольких процентов. Частоту снижают разными приёмами (лучшим обучением, подключением поиска по проверенным документам, инструментами проверки), но в ноль она не уходит.
И вот здесь сходятся два свойства, которые делают галлюцинации коварными. Помните сикофантию из раздела про обучение? Модель приучена звучать уверенно и приятно. Поэтому выдуманный факт подаётся ровно с той же спокойной уверенностью, что и настоящий. У ответа нет специального тревожного тона на случай, когда модель «не знает». Отсюда железное правило, которое стоит усвоить с первого дня: уверенный тон модели ничего не говорит о правдивости. Любые факты, цифры, цитаты и ссылки, которые важны, нужно перепроверять у первоисточника.
Чего модель не знает: дата среза и отсутствие интернета
Есть ещё один источник недоразумений, тесно связанный с предыдущим. Многие уверены, что ChatGPT сидит в интернете и в реальном времени всё гуглит. По умолчанию это не так.
Базовая модель знает только то, что впитала во время обучения. А обучение когда-то закончилось. Момент, на котором сбор обучающих данных остановили, называют датой среза знаний. Всё, что произошло в мире после этой даты, для модели как будто не существует. У разных моделей эта дата разная: у одних знания заканчиваются осенью 2023 года, у других позже. Спросите такую модель про событие, случившееся после её среза, и она либо честно скажет, что не знает, либо, что хуже, уверенно выдаст устаревшую информацию как актуальную.
Классический пример это курс валют или последние новости. Базовый ChatGPT без специальных функций не назовёт вам сегодняшний курс доллара. В лучшем случае он предупредит, что не в курсе текущих значений. В худшем назовёт цифру из времён обучения, и вы примете её за свежую.
Отдельно подчеркну: способность искать в интернете у современных ассистентов появилась, но это отдельная надстройка, которую нужно включать или которая работает не всегда. Это не базовое свойство модели, а дополнительный инструмент поверх неё. Когда поиск выключен, модель опирается только на свою «вшитую» при обучении память. Поэтому, если вам нужны свежие данные, убедитесь, что режим поиска включён, и всё равно проверяйте важное.
Что такое контекстное окно: память на один разговор
Теперь разберёмся с памятью модели, потому что вокруг неё тоже много путаницы. Здесь нужно различать два совершенно разных вида «памяти».
Первый вид это знания, впитанные при обучении. Они зафиксированы намертво. После окончания обучения параметры модели не меняются. Что бы вы ей ни рассказывали в чате, эти миллиарды чисел остаются прежними. Модель не дообучается на ваших разговорах в реальном времени.
Второй вид памяти это то, что модель «видит» прямо сейчас, в текущем разговоре. И вот тут появляется ключевое понятие: контекстное окно. Это объём текста, который модель удерживает перед глазами одновременно. Сюда входит весь ваш диалог: ваши сообщения, её ответы, любые файлы или тексты, которые вы вставили. Измеряется окно в токенах, и у современных моделей оно довольно большое: сотни тысяч токенов, что соответствует сотням страниц текста.
Лучшая аналогия это листок бумаги, на котором ведётся стенограмма беседы. Пока разговор помещается на листок, модель всё «помнит»: она просто перечитывает весь листок перед каждым новым ответом и продолжает текст с учётом написанного. Но у листка есть край. Когда вы закрываете чат и открываете новый, вам выдают чистый листок. Всё, что было, стёрто. Новый разговор модель начинает с полного нуля, не помня вас и прошлую беседу.
Из этого вытекает практичное следствие, которое экономит нервы. Если вы поправили модель внутри разговора (указали на ошибку, и она согласилась), это работает только пока открыт текущий чат. Исправление живёт на том же листке. Закрыли чат, и в новом она повторит ту же ошибку, потому что ничего не «выучила». Чтобы коррекция работала, она должна оставаться в пределах одного контекстного окна.
Стоит знать и об обратной стороне. Раз окно конечно, очень длинный разговор постепенно подходит к его краю. Когда диалог становится огромным, модель начинает хуже удерживать то, о чём говорили в самом начале. Для новичка вывод простой: если беседа сильно разрослась и модель будто потеряла нить, проще начать свежий чат и заново дать ей нужную вводную, чем мучить переполненное окно.
Чем GPT, Claude и Gemini отличаются на уровне идеи
Вы наверняка слышали несколько имён: ChatGPT, Claude, Gemini. Новичку важно понять главное: на уровне устройства это родственники. Все они представляют собой большие языковые модели, построенные на одном и том же фундаментальном подходе и предсказывающие следующий токен. Если вы поняли всё, что было выше, вы поняли, как работает каждая из них.
В чём же разница? Их делают разные компании. ChatGPT это продукт компании OpenAI. Claude создаёт компания Anthropic. Gemini делает Google. Разные команды, разные наборы обучающих данных, разные акценты в дообучении и в том, что считать «хорошим ответом». Из-за этого у моделей складывается характер: одна аккуратнее в формулировках, другая бойчее в творческих задачах, третья сильнее в чём-то своём. Эти различия реальны, но они про оттенки и сильные стороны, а не про разные принципы работы.
Ещё одна вещь, которая путает новичков. Не существует «одного ChatGPT». У каждой компании есть линейка моделей разного размера и мощности. Обычно есть модели полегче и побыстрее, и есть потяжелее и поумнее. Бесплатная версия сервиса нередко работает на модели попроще, чем платная. Поэтому фраза «я спросил у ИИ» мало что говорит: важно, какая именно модель и какой версии отвечала. У одной и той же марки разные модели могут отличаться и по уму, и по дате среза знаний.
Практический вывод для старта: не застревайте в мучительном выборе между марками. Для первых шагов берите любую популярную, ведь принципы работы и приёмы общения с ней одинаковы. Разбираться в нюансах, какая модель сильнее в какой задаче, будете позже, когда нащупаете свои типичные сценарии.
Как всё это превращается в умение задавать запросы
Мы разобрали механику. Теперь соберём из неё практику, потому что понимание устройства напрямую подсказывает, как разговаривать с моделью, чтобы получать толк.
Раз модель достраивает текст по тому началу, что вы дали, давайте ей хорошее начало. Чем точнее и подробнее ваш запрос, тем точнее модель угадает нужное продолжение. Скупой запрос «расскажи про маркетинг» оставляет ей слишком много свободы, и она выберет самую общую, водянистую тропу. Развёрнутый запрос «объясни, что такое воронка продаж, простыми словами на примере маленькой кофейни, в пяти пунктах» резко сужает поле и ведёт к толковому ответу. Вы буквально задаёте направление, в котором модель будет достраивать текст.
Раз ответы случайны из-за температуры, не воспринимайте первый ответ как истину в последней инстанции. Если результат не нравится, перегенерируйте. Другой прогон может дать заметно лучший вариант просто из-за встроенной случайности. А для задач, где нужна стабильность и предсказуемость, формулируйте максимально жёстко и конкретно, и так вы оставите меньше простора для разброса.
Раз модель выдумывает и подаёт выдумку уверенно, относитесь к фактам как к черновику, а не приговору. Всё, что важно и проверяемо (цифры, даты, имена, цитаты, ссылки, юридические и медицинские утверждения), перепроверяйте у первоисточника. Используйте модель как генератор идей, черновиков, объяснений и вариантов, но финальную ответственность за факты держите за собой.
Раз у модели есть дата среза и она по умолчанию не в интернете, не ждите от неё свежих новостей и актуальных данных без включённого поиска. Для всего «живого» либо включайте режим веб-поиска, либо вставляйте нужные свежие сведения прямо в запрос, чтобы они попали в контекстное окно.
Раз память живёт в пределах одного разговора, держите связанную работу в одном чате, чтобы модель видела весь нужный контекст на своём «листке». А когда тема меняется или диалог разросся и модель путается, начинайте новый чат и заново давайте вводную. И никогда не пишите в чат то, что нельзя показывать посторонним: пароли, паспортные данные, коммерческие секреты. Компании могут использовать диалоги для улучшения моделей, так что относитесь к чату не как к личному дневнику.
Короткий итог
Свернём всё в несколько мыслей, которые стоит унести с собой.
LLM это огромная сетка из миллиардов чисел, обученная на колоссальном объёме текста предсказывать следующий токен. Она не ищет, не вспоминает и не думает в человеческом смысле. Она достраивает вероятное продолжение.
Из этого устройства напрямую растут все её особенности. Ответы разные каждый раз из-за встроенной случайности, которой управляет температура. Модель выдумывает уверенным тоном, потому что выдаёт вероятный текст без проверки на правду, а дообучение приучило её звучать убедительно. Она не знает свежих событий из-за даты среза знаний и отсутствия интернета по умолчанию. Она помнит разговор только пока открыт чат, потому что контекстное окно конечно и обнуляется в новой сессии.
И главный практический вывод: LLM это не оракул, а очень мощный и очень начитанный генератор текста. Если относиться к нему именно так (давать точные запросы, перепроверять важные факты, не ждать свежих новостей без поиска и держать контекст в одном чате), он становится исключительно полезным инструментом. Магия пропала, осталась механика. А механикой, в отличие от магии, можно осознанно управлять.