Стилометрия: как тебя деанонят через текст и как от этого защититься

konstrukt

Информационная безопасность/Пробив-Сервис
Доверенный продавец
Проверенный продавец
Сервис
Пробив сервис
Подтвержденный
Сообщения
170
Реакции
45
Продажи
6
Покупки
13
Кешбек
9.25$
Все знают про Tor, Tails, VPN, виртуалки и прочее железо. Про это написаны тысячи гайдов и большинство здесь это уже крутит на автомате. Но есть вектор атаки который стабильно игнорируется даже людьми с нормальным OPSEC — это лингвистический отпечаток. Ты сам, своим текстом, деанонишь себя сильнее чем любая утечка метаданных.




Что такое стилометрия и почему это работает


Стилометрия — это анализ текста с целью определения авторства. Появилась она в академической среде, использовалась для атрибуции литературных произведений и исторических документов. Потом её взяли на вооружение спецслужбы и исследователи безопасности.


Суть простая: каждый человек пишет по-своему. Не по смыслу — по структуре. Ты неосознанно используешь одни и те же слова-связки, ставишь запятые в одних и тех же местах, строишь предложения по одному шаблону, делаешь одинаковые опечатки и потом одинаково их исправляешь. Это не лечится усилием воли — это глубокие паттерны которые формировались годами.


Проблема в том что эти паттерны стабильны. Человек который написал 50 постов на одном форуме под одним ником и 50 постов на другом форуме под другим ником — с высокой вероятностью будет идентифицирован как один автор если у аналитика есть оба массива текста.




Как это делается технически


Основной алгоритм который используется в академической и форензик среде — это Burrows Delta и его модификации (Argamon's Delta, Cosine Delta). Логика следующая: берётся частотность слов в тексте, сравнивается с эталонными образцами, вычисляется статистическое расстояние между авторами. Чем меньше расстояние — тем выше вероятность совпадения.


Есть открытые инструменты: JGAAP (Java Graphical Authorship Attribution Program) — его разрабатывали в том числе для нужд американских правоохранителей, Stylo — пакет для R, который используют в академической лингвистике, LIWC — анализирует психолингвистические категории текста.


Что конкретно анализируется:


Функциональные слова — предлоги, союзы, частицы. Именно они, а не смысловые слова, являются главным маркером авторства. Ты не думаешь когда пишешь "в общем" или "короче" или "по сути" — это выходит автоматически.


Пунктуационные паттерны — как ты используешь тире, многоточие, скобки. Ставишь ли пробел перед знаком препинания. Используешь ли восклицательный знак и в каких контекстах.


Длина предложений и абзацев — среднее значение и дисперсия. Человек который пишет короткими рублеными фразами редко вдруг начинает писать длинными сложноподчинёнными конструкциями на другом ресурсе.


Характерные обороты — "дело в том что", "на самом деле", "по факту", "смотри", "окей". Это личные слова-паразиты которые ты тащишь везде.


Ошибки и их паттерны — если ты всегда путаешь "тся/ться" в одних и тех же словах, или всегда пишешь "вобщем" вместо "в общем" — это тоже маркер.


Структура аргументации — как ты выстраиваешь мысль, как переходишь от тезиса к доказательству, как заканчиваешь сообщение.




Реальные случаи деанона через текст


Хакер w0rmer был частично идентифицирован через стиль сообщений которые он оставлял. Сравнение с его активностью на других площадках дало следователям зацепку.


Авторство Анонимных манифестов и писем часто устанавливается именно стилометрически — ФБР использует этот метод как стандартный инструмент форензики.


Пользователи даркнет форумов неоднократно деанонились через сопоставление их постов с активностью в клирнете. Человек умный, OPSEC нормальный — но писал на одном форуме под реальным именем несколько лет, набрал массив текста, и этого хватило для сравнения.




Где берётся эталонный образец


Это важный вопрос. Чтобы тебя деанонить стилометрически нужно с чем-то сравнивать. Откуда берётся этот материал:


Социальные сети под реальным именем. Если ты когда-либо писал в ВК, на реддите, в телеграм канале, на GitHub — это готовый корпус текста.


Другие форумы. Если ты активен в нескольких местах под разными никами но пишешь одинаково — кросс-форумное сравнение даёт результат.


Комментарии, отзывы, любой публичный текст. Люди не думают об этом когда пишут отзыв на маркетплейсе или комментарий под статьёй.


Утечки баз данных. Если когда-то была утечка форума где ты был зарегистрирован — этот текст может быть в руках у исследователей или недоброжелателей.




Как защититься


Честный ответ: полностью — никак. Но можно серьёзно снизить точность атрибуции.


Разделение личностей без пересечений. Это основа. Анонимный ник не должен иметь ничего общего с твоей реальной активностью — ни тематически, ни стилистически, ни по времени постов. Это сложнее чем звучит потому что человек неосознанно тащит привычки.


Осознанное изменение стиля. Это работает хуже чем кажется но лучше чем ничего. Конкретно: намеренно менять длину предложений, убирать свои характерные обороты, менять пунктуационные привычки. Требует постоянного внимания и со временем всё равно начинаешь съезжать к своему естественному стилю.


LLM как буфер. Более практичный подход. Пишешь текст как обычно, прогоняешь через языковую модель с инструкцией переписать своими словами сохранив смысл, потом редактируешь результат. Это разрывает прямую связь между твоим естественным стилем и финальным текстом. Минус — требует дополнительного шага и дисциплины, плюс — реально снижает лингвистическую узнаваемость.


Минимизация объёма текста. Чем меньше ты пишешь под конкретным ником — тем меньше материала для анализа. Стилометрия хуже работает на коротких текстах. Несколько коротких сообщений атрибутировать сложнее чем один большой лонгрид.


Не переносить темы. Если ты интересуешься определённой нишевой темой и активно обсуждаешь её под реальным именем — не обсуждай её же под анонимным. Тематическая корреляция это отдельный вектор сужения круга подозреваемых перед тем как запускать стилометрию.


Время постов. Это смежная тема но связанная — паттерн активности по времени суток и дням недели тоже деанонит. Если ты всегда онлайн в одно и то же время — это коррелирует с твоим реальным расписанием.





Технический OPSEC это необходимо но недостаточно. Tails не поможет если ты пишешь одинаково везде. Tor не скроет тебя если твои посты можно сравнить с твоим реальным текстом и получить совпадение.


Анонимность это поведение в первую очередь. Железо и софт это только инструменты — дыра всегда в человеке.
 

Похожие темы

Ты можешь сидеть через Tor, менять ники, использовать разные устройства. Но если ты пишешь одинаково — тебя свяжут. Не по IP, не по куки, не по фингерпринту браузера. По тому КАК ты строишь предложения. Звучит как фантастика? Нет. Это называется стилометрия, и она работает уже давно. Просто...
Ответы
3
Просмотры
512
Приветствую, поговорим о значимой части анонимности. Большинство людей создают анонимный аккаунт за пять минут — придумывают ник, берут случайный аватар, начинают писать. Это не легенда, это одноразовая маска. Такой аккаунт не выдерживает даже поверхностной проверки. Настоящая цифровая...
Ответы
6
Просмотры
179
Что такое OSINT Open Source Intelligence — разведка по открытым источникам. Сбор и анализ информации из публично доступных данных без взлома и без незаконных методов. Используется пентестерами для разведки перед тестированием, журналистами для расследований, правоохранителями для деанона, и...
Ответы
0
Просмотры
54
Постоянное хранилище — это компромисс между удобством и безопасностью. Tails спроектирован так, чтобы не оставлять следов. Каждый байт, который ты сохраняешь, — это байт, который может тебя предать. Ладно, народ. Давайте поговорим о том, о чём большинство туториалов скромно умалчивает. Все вы...
Ответы
3
Просмотры
163
Ты сидишь под VPN или Tor, думаешь, что ты невидимка. Трафик зашифрован, IP-адрес подменён. Но твой провайдер всё равно видит, на какие сайты ты ходишь. Как? Через дыру, о которой многие даже не догадываются. Имя ей — DNS-утечка. Что это такое? DNS — это телефонная книга интернета. Когда ты...
Ответы
3
Просмотры
124
Назад
Сверху Снизу