konstrukt
Информационная безопасность/Пробив-Сервис
Доверенный продавец
Проверенный продавец
Сервис
Пробив сервис
Подтвержденный
- Сообщения
- 170
- Реакции
- 45
- Продажи
- 6
- Покупки
- 13
- Кешбек
- 9.25$
Все знают про Tor, Tails, VPN, виртуалки и прочее железо. Про это написаны тысячи гайдов и большинство здесь это уже крутит на автомате. Но есть вектор атаки который стабильно игнорируется даже людьми с нормальным OPSEC — это лингвистический отпечаток. Ты сам, своим текстом, деанонишь себя сильнее чем любая утечка метаданных.
Что такое стилометрия и почему это работает
Стилометрия — это анализ текста с целью определения авторства. Появилась она в академической среде, использовалась для атрибуции литературных произведений и исторических документов. Потом её взяли на вооружение спецслужбы и исследователи безопасности.
Суть простая: каждый человек пишет по-своему. Не по смыслу — по структуре. Ты неосознанно используешь одни и те же слова-связки, ставишь запятые в одних и тех же местах, строишь предложения по одному шаблону, делаешь одинаковые опечатки и потом одинаково их исправляешь. Это не лечится усилием воли — это глубокие паттерны которые формировались годами.
Проблема в том что эти паттерны стабильны. Человек который написал 50 постов на одном форуме под одним ником и 50 постов на другом форуме под другим ником — с высокой вероятностью будет идентифицирован как один автор если у аналитика есть оба массива текста.
Как это делается технически
Основной алгоритм который используется в академической и форензик среде — это Burrows Delta и его модификации (Argamon's Delta, Cosine Delta). Логика следующая: берётся частотность слов в тексте, сравнивается с эталонными образцами, вычисляется статистическое расстояние между авторами. Чем меньше расстояние — тем выше вероятность совпадения.
Есть открытые инструменты: JGAAP (Java Graphical Authorship Attribution Program) — его разрабатывали в том числе для нужд американских правоохранителей, Stylo — пакет для R, который используют в академической лингвистике, LIWC — анализирует психолингвистические категории текста.
Что конкретно анализируется:
Функциональные слова — предлоги, союзы, частицы. Именно они, а не смысловые слова, являются главным маркером авторства. Ты не думаешь когда пишешь "в общем" или "короче" или "по сути" — это выходит автоматически.
Пунктуационные паттерны — как ты используешь тире, многоточие, скобки. Ставишь ли пробел перед знаком препинания. Используешь ли восклицательный знак и в каких контекстах.
Длина предложений и абзацев — среднее значение и дисперсия. Человек который пишет короткими рублеными фразами редко вдруг начинает писать длинными сложноподчинёнными конструкциями на другом ресурсе.
Характерные обороты — "дело в том что", "на самом деле", "по факту", "смотри", "окей". Это личные слова-паразиты которые ты тащишь везде.
Ошибки и их паттерны — если ты всегда путаешь "тся/ться" в одних и тех же словах, или всегда пишешь "вобщем" вместо "в общем" — это тоже маркер.
Структура аргументации — как ты выстраиваешь мысль, как переходишь от тезиса к доказательству, как заканчиваешь сообщение.
Реальные случаи деанона через текст
Хакер w0rmer был частично идентифицирован через стиль сообщений которые он оставлял. Сравнение с его активностью на других площадках дало следователям зацепку.
Авторство Анонимных манифестов и писем часто устанавливается именно стилометрически — ФБР использует этот метод как стандартный инструмент форензики.
Пользователи даркнет форумов неоднократно деанонились через сопоставление их постов с активностью в клирнете. Человек умный, OPSEC нормальный — но писал на одном форуме под реальным именем несколько лет, набрал массив текста, и этого хватило для сравнения.
Где берётся эталонный образец
Это важный вопрос. Чтобы тебя деанонить стилометрически нужно с чем-то сравнивать. Откуда берётся этот материал:
Социальные сети под реальным именем. Если ты когда-либо писал в ВК, на реддите, в телеграм канале, на GitHub — это готовый корпус текста.
Другие форумы. Если ты активен в нескольких местах под разными никами но пишешь одинаково — кросс-форумное сравнение даёт результат.
Комментарии, отзывы, любой публичный текст. Люди не думают об этом когда пишут отзыв на маркетплейсе или комментарий под статьёй.
Утечки баз данных. Если когда-то была утечка форума где ты был зарегистрирован — этот текст может быть в руках у исследователей или недоброжелателей.
Как защититься
Честный ответ: полностью — никак. Но можно серьёзно снизить точность атрибуции.
Разделение личностей без пересечений. Это основа. Анонимный ник не должен иметь ничего общего с твоей реальной активностью — ни тематически, ни стилистически, ни по времени постов. Это сложнее чем звучит потому что человек неосознанно тащит привычки.
Осознанное изменение стиля. Это работает хуже чем кажется но лучше чем ничего. Конкретно: намеренно менять длину предложений, убирать свои характерные обороты, менять пунктуационные привычки. Требует постоянного внимания и со временем всё равно начинаешь съезжать к своему естественному стилю.
LLM как буфер. Более практичный подход. Пишешь текст как обычно, прогоняешь через языковую модель с инструкцией переписать своими словами сохранив смысл, потом редактируешь результат. Это разрывает прямую связь между твоим естественным стилем и финальным текстом. Минус — требует дополнительного шага и дисциплины, плюс — реально снижает лингвистическую узнаваемость.
Минимизация объёма текста. Чем меньше ты пишешь под конкретным ником — тем меньше материала для анализа. Стилометрия хуже работает на коротких текстах. Несколько коротких сообщений атрибутировать сложнее чем один большой лонгрид.
Не переносить темы. Если ты интересуешься определённой нишевой темой и активно обсуждаешь её под реальным именем — не обсуждай её же под анонимным. Тематическая корреляция это отдельный вектор сужения круга подозреваемых перед тем как запускать стилометрию.
Время постов. Это смежная тема но связанная — паттерн активности по времени суток и дням недели тоже деанонит. Если ты всегда онлайн в одно и то же время — это коррелирует с твоим реальным расписанием.
Технический OPSEC это необходимо но недостаточно. Tails не поможет если ты пишешь одинаково везде. Tor не скроет тебя если твои посты можно сравнить с твоим реальным текстом и получить совпадение.
Анонимность это поведение в первую очередь. Железо и софт это только инструменты — дыра всегда в человеке.
Что такое стилометрия и почему это работает
Стилометрия — это анализ текста с целью определения авторства. Появилась она в академической среде, использовалась для атрибуции литературных произведений и исторических документов. Потом её взяли на вооружение спецслужбы и исследователи безопасности.
Суть простая: каждый человек пишет по-своему. Не по смыслу — по структуре. Ты неосознанно используешь одни и те же слова-связки, ставишь запятые в одних и тех же местах, строишь предложения по одному шаблону, делаешь одинаковые опечатки и потом одинаково их исправляешь. Это не лечится усилием воли — это глубокие паттерны которые формировались годами.
Проблема в том что эти паттерны стабильны. Человек который написал 50 постов на одном форуме под одним ником и 50 постов на другом форуме под другим ником — с высокой вероятностью будет идентифицирован как один автор если у аналитика есть оба массива текста.
Как это делается технически
Основной алгоритм который используется в академической и форензик среде — это Burrows Delta и его модификации (Argamon's Delta, Cosine Delta). Логика следующая: берётся частотность слов в тексте, сравнивается с эталонными образцами, вычисляется статистическое расстояние между авторами. Чем меньше расстояние — тем выше вероятность совпадения.
Есть открытые инструменты: JGAAP (Java Graphical Authorship Attribution Program) — его разрабатывали в том числе для нужд американских правоохранителей, Stylo — пакет для R, который используют в академической лингвистике, LIWC — анализирует психолингвистические категории текста.
Что конкретно анализируется:
Функциональные слова — предлоги, союзы, частицы. Именно они, а не смысловые слова, являются главным маркером авторства. Ты не думаешь когда пишешь "в общем" или "короче" или "по сути" — это выходит автоматически.
Пунктуационные паттерны — как ты используешь тире, многоточие, скобки. Ставишь ли пробел перед знаком препинания. Используешь ли восклицательный знак и в каких контекстах.
Длина предложений и абзацев — среднее значение и дисперсия. Человек который пишет короткими рублеными фразами редко вдруг начинает писать длинными сложноподчинёнными конструкциями на другом ресурсе.
Характерные обороты — "дело в том что", "на самом деле", "по факту", "смотри", "окей". Это личные слова-паразиты которые ты тащишь везде.
Ошибки и их паттерны — если ты всегда путаешь "тся/ться" в одних и тех же словах, или всегда пишешь "вобщем" вместо "в общем" — это тоже маркер.
Структура аргументации — как ты выстраиваешь мысль, как переходишь от тезиса к доказательству, как заканчиваешь сообщение.
Реальные случаи деанона через текст
Хакер w0rmer был частично идентифицирован через стиль сообщений которые он оставлял. Сравнение с его активностью на других площадках дало следователям зацепку.
Авторство Анонимных манифестов и писем часто устанавливается именно стилометрически — ФБР использует этот метод как стандартный инструмент форензики.
Пользователи даркнет форумов неоднократно деанонились через сопоставление их постов с активностью в клирнете. Человек умный, OPSEC нормальный — но писал на одном форуме под реальным именем несколько лет, набрал массив текста, и этого хватило для сравнения.
Где берётся эталонный образец
Это важный вопрос. Чтобы тебя деанонить стилометрически нужно с чем-то сравнивать. Откуда берётся этот материал:
Социальные сети под реальным именем. Если ты когда-либо писал в ВК, на реддите, в телеграм канале, на GitHub — это готовый корпус текста.
Другие форумы. Если ты активен в нескольких местах под разными никами но пишешь одинаково — кросс-форумное сравнение даёт результат.
Комментарии, отзывы, любой публичный текст. Люди не думают об этом когда пишут отзыв на маркетплейсе или комментарий под статьёй.
Утечки баз данных. Если когда-то была утечка форума где ты был зарегистрирован — этот текст может быть в руках у исследователей или недоброжелателей.
Как защититься
Честный ответ: полностью — никак. Но можно серьёзно снизить точность атрибуции.
Разделение личностей без пересечений. Это основа. Анонимный ник не должен иметь ничего общего с твоей реальной активностью — ни тематически, ни стилистически, ни по времени постов. Это сложнее чем звучит потому что человек неосознанно тащит привычки.
Осознанное изменение стиля. Это работает хуже чем кажется но лучше чем ничего. Конкретно: намеренно менять длину предложений, убирать свои характерные обороты, менять пунктуационные привычки. Требует постоянного внимания и со временем всё равно начинаешь съезжать к своему естественному стилю.
LLM как буфер. Более практичный подход. Пишешь текст как обычно, прогоняешь через языковую модель с инструкцией переписать своими словами сохранив смысл, потом редактируешь результат. Это разрывает прямую связь между твоим естественным стилем и финальным текстом. Минус — требует дополнительного шага и дисциплины, плюс — реально снижает лингвистическую узнаваемость.
Минимизация объёма текста. Чем меньше ты пишешь под конкретным ником — тем меньше материала для анализа. Стилометрия хуже работает на коротких текстах. Несколько коротких сообщений атрибутировать сложнее чем один большой лонгрид.
Не переносить темы. Если ты интересуешься определённой нишевой темой и активно обсуждаешь её под реальным именем — не обсуждай её же под анонимным. Тематическая корреляция это отдельный вектор сужения круга подозреваемых перед тем как запускать стилометрию.
Время постов. Это смежная тема но связанная — паттерн активности по времени суток и дням недели тоже деанонит. Если ты всегда онлайн в одно и то же время — это коррелирует с твоим реальным расписанием.
Технический OPSEC это необходимо но недостаточно. Tails не поможет если ты пишешь одинаково везде. Tor не скроет тебя если твои посты можно сравнить с твоим реальным текстом и получить совпадение.
Анонимность это поведение в первую очередь. Железо и софт это только инструменты — дыра всегда в человеке.
