Стилометрия: как тебя деанонят через текст и как от этого защититься

konstrukt · 20 Май 2026

Все знают про Tor, Tails, VPN, виртуалки и прочее железо. Про это написаны тысячи гайдов и большинство здесь это уже крутит на автомате. Но есть вектор атаки который стабильно игнорируется даже людьми с нормальным OPSEC — это лингвистический отпечаток. Ты сам, своим текстом, деанонишь себя сильнее чем любая утечка метаданных.

Что такое стилометрия и почему это работает

Стилометрия — это анализ текста с целью определения авторства. Появилась она в академической среде, использовалась для атрибуции литературных произведений и исторических документов. Потом её взяли на вооружение спецслужбы и исследователи безопасности.

Суть простая: каждый человек пишет по-своему. Не по смыслу — по структуре. Ты неосознанно используешь одни и те же слова-связки, ставишь запятые в одних и тех же местах, строишь предложения по одному шаблону, делаешь одинаковые опечатки и потом одинаково их исправляешь. Это не лечится усилием воли — это глубокие паттерны которые формировались годами.

Проблема в том что эти паттерны стабильны. Человек который написал 50 постов на одном форуме под одним ником и 50 постов на другом форуме под другим ником — с высокой вероятностью будет идентифицирован как один автор если у аналитика есть оба массива текста.

Как это делается технически

Основной алгоритм который используется в академической и форензик среде — это Burrows Delta и его модификации (Argamon's Delta, Cosine Delta). Логика следующая: берётся частотность слов в тексте, сравнивается с эталонными образцами, вычисляется статистическое расстояние между авторами. Чем меньше расстояние — тем выше вероятность совпадения.

Есть открытые инструменты: JGAAP (Java Graphical Authorship Attribution Program) — его разрабатывали в том числе для нужд американских правоохранителей, Stylo — пакет для R, который используют в академической лингвистике, LIWC — анализирует психолингвистические категории текста.

Что конкретно анализируется:

Функциональные слова — предлоги, союзы, частицы. Именно они, а не смысловые слова, являются главным маркером авторства. Ты не думаешь когда пишешь "в общем" или "короче" или "по сути" — это выходит автоматически.

Пунктуационные паттерны — как ты используешь тире, многоточие, скобки. Ставишь ли пробел перед знаком препинания. Используешь ли восклицательный знак и в каких контекстах.

Длина предложений и абзацев — среднее значение и дисперсия. Человек который пишет короткими рублеными фразами редко вдруг начинает писать длинными сложноподчинёнными конструкциями на другом ресурсе.

Характерные обороты — "дело в том что", "на самом деле", "по факту", "смотри", "окей". Это личные слова-паразиты которые ты тащишь везде.

Ошибки и их паттерны — если ты всегда путаешь "тся/ться" в одних и тех же словах, или всегда пишешь "вобщем" вместо "в общем" — это тоже маркер.

Структура аргументации — как ты выстраиваешь мысль, как переходишь от тезиса к доказательству, как заканчиваешь сообщение.

Реальные случаи деанона через текст

Хакер w0rmer был частично идентифицирован через стиль сообщений которые он оставлял. Сравнение с его активностью на других площадках дало следователям зацепку.

Авторство Анонимных манифестов и писем часто устанавливается именно стилометрически — ФБР использует этот метод как стандартный инструмент форензики.

Пользователи даркнет форумов неоднократно деанонились через сопоставление их постов с активностью в клирнете. Человек умный, OPSEC нормальный — но писал на одном форуме под реальным именем несколько лет, набрал массив текста, и этого хватило для сравнения.

Где берётся эталонный образец

Это важный вопрос. Чтобы тебя деанонить стилометрически нужно с чем-то сравнивать. Откуда берётся этот материал:

Социальные сети под реальным именем. Если ты когда-либо писал в ВК, на реддите, в телеграм канале, на GitHub — это готовый корпус текста.

Другие форумы. Если ты активен в нескольких местах под разными никами но пишешь одинаково — кросс-форумное сравнение даёт результат.

Комментарии, отзывы, любой публичный текст. Люди не думают об этом когда пишут отзыв на маркетплейсе или комментарий под статьёй.

Утечки баз данных. Если когда-то была утечка форума где ты был зарегистрирован — этот текст может быть в руках у исследователей или недоброжелателей.

Как защититься

Честный ответ: полностью — никак. Но можно серьёзно снизить точность атрибуции.

Разделение личностей без пересечений. Это основа. Анонимный ник не должен иметь ничего общего с твоей реальной активностью — ни тематически, ни стилистически, ни по времени постов. Это сложнее чем звучит потому что человек неосознанно тащит привычки.

Осознанное изменение стиля. Это работает хуже чем кажется но лучше чем ничего. Конкретно: намеренно менять длину предложений, убирать свои характерные обороты, менять пунктуационные привычки. Требует постоянного внимания и со временем всё равно начинаешь съезжать к своему естественному стилю.

LLM как буфер. Более практичный подход. Пишешь текст как обычно, прогоняешь через языковую модель с инструкцией переписать своими словами сохранив смысл, потом редактируешь результат. Это разрывает прямую связь между твоим естественным стилем и финальным текстом. Минус — требует дополнительного шага и дисциплины, плюс — реально снижает лингвистическую узнаваемость.

Минимизация объёма текста. Чем меньше ты пишешь под конкретным ником — тем меньше материала для анализа. Стилометрия хуже работает на коротких текстах. Несколько коротких сообщений атрибутировать сложнее чем один большой лонгрид.

Не переносить темы. Если ты интересуешься определённой нишевой темой и активно обсуждаешь её под реальным именем — не обсуждай её же под анонимным. Тематическая корреляция это отдельный вектор сужения круга подозреваемых перед тем как запускать стилометрию.

Время постов. Это смежная тема но связанная — паттерн активности по времени суток и дням недели тоже деанонит. Если ты всегда онлайн в одно и то же время — это коррелирует с твоим реальным расписанием.

Технический OPSEC это необходимо но недостаточно. Tails не поможет если ты пишешь одинаково везде. Tor не скроет тебя если твои посты можно сравнить с твоим реальным текстом и получить совпадение.

Анонимность это поведение в первую очередь. Железо и софт это только инструменты — дыра всегда в человеке.

OLinks · 21 Май 2026

konstrukt написал(а):
LLM как буфер

Главное, чтобы сам ИИ-сервис тебя не слил

Wawyyx · 25 Май 2026

LLM и сольёт)

Стилометрия: как тебя деанонят через текст и как от этого защититься

konstrukt

Информационная безопасность/Пробив-Сервис

OLinks

Местный

Wawyyx

Пассажир

Похожие темы