- Сообщения
- 58
- Реакции
- 66
Ты можешь сидеть через Tor, менять ники, использовать разные устройства. Но если ты пишешь одинаково — тебя свяжут. Не по IP, не по куки, не по фингерпринту браузера. По тому КАК ты строишь предложения.
Звучит как фантастика? Нет. Это называется стилометрия, и она работает уже давно. Просто мало кто об этом думает.
Что такое стилометрия
Каждый человек пишет по-своему. Не в смысле "красиво или некрасиво", а в смысле конкретных привычек, которые ты даже не замечаешь за собой:
Всё это — твой лингвистический отпечаток. Он уникален примерно так же, как почерк. Ты можешь осознанно поменять пару слов, но весь комплекс привычек подделать почти нереально.
Как это работает технически
Стилометрия делит текст на пять категорий признаков:
Лексические — какие слова ты используешь, насколько богатый словарный запас, соотношение редких и частых слов.
Структурные — длина предложений, длина абзацев, количество знаков препинания на предложение.
Синтаксические — как ты строишь фразы. "Я пошёл в магазин потому что" vs "Потому что надо было, пошёл в магазин". Порядок слов, вложенность, использование деепричастных оборотов.
Контент-специфичные — о чём ты пишешь, какие темы затрагиваешь, какие метафоры используешь.
Идиосинкратические — опечатки, ошибки, нестандартное написание. Если ты стабильно пишешь "софт" через "сопт" или "щас" вместо "сейчас" — это маркер.
Алгоритм собирает все эти признаки с двух текстов и сравнивает. Не один-два параметра, а сотни одновременно. Человек не заметит совпадений, а машина — заметит.
Точность — не теория, а цифры
Исследование UC Berkeley по даркнет-маркетплейсам: алгоритм связывал аккаунты продавцов на разных площадках с точностью 97.5%. Не по метаданным, не по биткоин-адресам. Только по тексту объявлений.
На восьми крупных форумах (Antichat, Darkode, Hack Forums, Nulled и другие) машинное обучение отличало посты одного автора от постов разных авторов с 90% точностью при 1% ложных срабатываний.
Для кода — ещё жёстче. Стилометрия по исходникам определяет автора среди 8903 программистов с точностью 92%. Твой стиль кода тоже уникален: как именуешь переменные, где ставишь скобки, какие конструкции предпочитаешь.
Свежее исследование 2025 года — SALA (Stylometry-Assisted LLM Analysis) — комбинирует классическую стилометрию с LLM. Точность ещё выше, потому что нейросеть ловит паттерны, которые статистика пропускает.
Реальные кейсы
Унабомбер. Тед Качински 17 лет рассылал бомбы и оставался неуловим. ФБР опубликовало его манифест на 35 000 слов — и брат узнал стиль. Не по содержанию, а по конкретным оборотам. Качински писал "you can't eat your cake and have it too" вместо стандартного "you can't have your cake and eat it too". Писал "analyse" вместо "analyze", "licence" вместо "license". ФБР-лингвист Джеймс Фитцджеральд подтвердил — автор манифеста и личных писем Качински это один человек. Арест в 1996.
Silk Road. Росса Ульбрихта связали с ником Dread Pirate Roberts не только через утечку email. Его ранние посты на форумах под ником "altoid" стилистически совпадали с постами DPR. Плюс часовой пояс в чатах указывал на тихоокеанское время.
Даркнет-рынки в целом. Правоохранители давно используют стилометрию для связывания продавцов, которые после закрытия одного маркета появляются на другом под новым ником. Товар тот же, стиль описаний тот же — софт это ловит.
Инструменты
Это не секретные разработки ФБР. Всё в открытом доступе:
JStylo — open-source платформа на Java для стилометрического анализа. Выбираешь набор признаков (длина слов, частоты, n-граммы), загружаешь тексты — получаешь вероятность совпадения автора.
Writeprints — метод на основе преобразования Карунена-Лоэва. Строит уникальный "отпечаток письма" для каждого автора на основе сотен признаков. Работает даже на коротких текстах.
Anonymouth — обратная сторона: инструмент для анонимизации текста. Показывает какие твои привычки тебя палят и предлагает что изменить. Разработан той же командой что и JStylo.
SALA (2025) — свежий метод, сочетающий стилометрию с LLM. На сегодня самый точный подход.
Что именно тебя палит
Проверь себя. Открой свои посты с двух аккаунтов и честно посмотри:
Если хотя бы половина совпадает — считай, связь между аккаунтами уже видна для алгоритма.
Как защититься
Полностью — никак. Но осложнить задачу можно.
Осознанно менять стиль. На каждом аккаунте — свой "персонаж". Один пишет короткими рублеными фразами. Другой — длинными предложениями с деепричастными оборотами. Это тяжело поддерживать, но работает.
Anonymouth. Прогонять тексты через инструмент перед публикацией. Он подсветит что именно тебя выдаёт.
Перефразирование через LLM. Но аккуратно — если два аккаунта одинаково "пахнут ChatGPT", это тоже маркер. LLM-тексты тоже имеют свой стилометрический отпечаток, и свежие исследования уже умеют отличать тексты разных моделей друг от друга.
Разный контент. Один аккаунт — технические темы. Другой — торговля. Не пересекать тематику.
Время публикаций. Стилометрия работает не только с текстом. Когда ты активен — тоже маркер. Если оба аккаунта пишут с 2 до 5 ночи и молчат днём — это корреляция.
Итого
VPN, Tor, левые почты — это всё про сетевую анонимность. Но ты оставляешь другой след — в каждом написанном слове. И этот след сложнее всего замести.
Стилометрия — не массовый инструмент. Никто не будет прогонять все посты форума через алгоритм ради рядового юзера. Но если ты стал целью и у следствия есть образцы текста с другого аккаунта — связать их дело техники. Буквально.
Думай не только о том, откуда пишешь. Думай о том, КАК пишешь.
Звучит как фантастика? Нет. Это называется стилометрия, и она работает уже давно. Просто мало кто об этом думает.
Что такое стилометрия
Каждый человек пишет по-своему. Не в смысле "красиво или некрасиво", а в смысле конкретных привычек, которые ты даже не замечаешь за собой:
- Средняя длина предложений
- Какие знаки препинания ставишь и как часто
- Слова-паразиты ("типа", "ну", "короче", "кста")
- Пишешь "не" слитно или раздельно в спорных местах
- Ставишь ли пробел перед восклицательным знаком
- Как оформляешь списки — с точкой, с тире, с заглавной
- Используешь ли сокращения ("норм", "чел", "инфа")
- Длина абзацев, частота переносов строки
Всё это — твой лингвистический отпечаток. Он уникален примерно так же, как почерк. Ты можешь осознанно поменять пару слов, но весь комплекс привычек подделать почти нереально.
Как это работает технически
Стилометрия делит текст на пять категорий признаков:
Лексические — какие слова ты используешь, насколько богатый словарный запас, соотношение редких и частых слов.
Структурные — длина предложений, длина абзацев, количество знаков препинания на предложение.
Синтаксические — как ты строишь фразы. "Я пошёл в магазин потому что" vs "Потому что надо было, пошёл в магазин". Порядок слов, вложенность, использование деепричастных оборотов.
Контент-специфичные — о чём ты пишешь, какие темы затрагиваешь, какие метафоры используешь.
Идиосинкратические — опечатки, ошибки, нестандартное написание. Если ты стабильно пишешь "софт" через "сопт" или "щас" вместо "сейчас" — это маркер.
Алгоритм собирает все эти признаки с двух текстов и сравнивает. Не один-два параметра, а сотни одновременно. Человек не заметит совпадений, а машина — заметит.
Точность — не теория, а цифры
Исследование UC Berkeley по даркнет-маркетплейсам: алгоритм связывал аккаунты продавцов на разных площадках с точностью 97.5%. Не по метаданным, не по биткоин-адресам. Только по тексту объявлений.
На восьми крупных форумах (Antichat, Darkode, Hack Forums, Nulled и другие) машинное обучение отличало посты одного автора от постов разных авторов с 90% точностью при 1% ложных срабатываний.
Для кода — ещё жёстче. Стилометрия по исходникам определяет автора среди 8903 программистов с точностью 92%. Твой стиль кода тоже уникален: как именуешь переменные, где ставишь скобки, какие конструкции предпочитаешь.
Свежее исследование 2025 года — SALA (Stylometry-Assisted LLM Analysis) — комбинирует классическую стилометрию с LLM. Точность ещё выше, потому что нейросеть ловит паттерны, которые статистика пропускает.
Реальные кейсы
Унабомбер. Тед Качински 17 лет рассылал бомбы и оставался неуловим. ФБР опубликовало его манифест на 35 000 слов — и брат узнал стиль. Не по содержанию, а по конкретным оборотам. Качински писал "you can't eat your cake and have it too" вместо стандартного "you can't have your cake and eat it too". Писал "analyse" вместо "analyze", "licence" вместо "license". ФБР-лингвист Джеймс Фитцджеральд подтвердил — автор манифеста и личных писем Качински это один человек. Арест в 1996.
Silk Road. Росса Ульбрихта связали с ником Dread Pirate Roberts не только через утечку email. Его ранние посты на форумах под ником "altoid" стилистически совпадали с постами DPR. Плюс часовой пояс в чатах указывал на тихоокеанское время.
Даркнет-рынки в целом. Правоохранители давно используют стилометрию для связывания продавцов, которые после закрытия одного маркета появляются на другом под новым ником. Товар тот же, стиль описаний тот же — софт это ловит.
Инструменты
Это не секретные разработки ФБР. Всё в открытом доступе:
JStylo — open-source платформа на Java для стилометрического анализа. Выбираешь набор признаков (длина слов, частоты, n-граммы), загружаешь тексты — получаешь вероятность совпадения автора.
Writeprints — метод на основе преобразования Карунена-Лоэва. Строит уникальный "отпечаток письма" для каждого автора на основе сотен признаков. Работает даже на коротких текстах.
Anonymouth — обратная сторона: инструмент для анонимизации текста. Показывает какие твои привычки тебя палят и предлагает что изменить. Разработан той же командой что и JStylo.
SALA (2025) — свежий метод, сочетающий стилометрию с LLM. На сегодня самый точный подход.
Что именно тебя палит
Проверь себя. Открой свои посты с двух аккаунтов и честно посмотри:
- Используешь одни и те же вводные слова? ("короче", "ну смотри", "по факту")
- Ставишь ... в конце незавершённых мыслей?
- Пишешь "ты" с маленькой или большой буквы?
- Как отделяешь блоки текста — пустой строкой, тире, ничем?
- Ставишь пробел перед двоеточием или нет?
- Используешь скобки для ремарок (вот так)?
- Начинаешь предложения с "и" или "но"?
- Пишешь числа цифрами или словами?
Если хотя бы половина совпадает — считай, связь между аккаунтами уже видна для алгоритма.
Как защититься
Полностью — никак. Но осложнить задачу можно.
Осознанно менять стиль. На каждом аккаунте — свой "персонаж". Один пишет короткими рублеными фразами. Другой — длинными предложениями с деепричастными оборотами. Это тяжело поддерживать, но работает.
Anonymouth. Прогонять тексты через инструмент перед публикацией. Он подсветит что именно тебя выдаёт.
Перефразирование через LLM. Но аккуратно — если два аккаунта одинаково "пахнут ChatGPT", это тоже маркер. LLM-тексты тоже имеют свой стилометрический отпечаток, и свежие исследования уже умеют отличать тексты разных моделей друг от друга.
Разный контент. Один аккаунт — технические темы. Другой — торговля. Не пересекать тематику.
Время публикаций. Стилометрия работает не только с текстом. Когда ты активен — тоже маркер. Если оба аккаунта пишут с 2 до 5 ночи и молчат днём — это корреляция.
Итого
VPN, Tor, левые почты — это всё про сетевую анонимность. Но ты оставляешь другой след — в каждом написанном слове. И этот след сложнее всего замести.
Стилометрия — не массовый инструмент. Никто не будет прогонять все посты форума через алгоритм ради рядового юзера. Но если ты стал целью и у следствия есть образцы текста с другого аккаунта — связать их дело техники. Буквально.
Думай не только о том, откуда пишешь. Думай о том, КАК пишешь.