Twitter опубликовал исходный код своих рекомендательных алгоритмов. Похоже, они недолюбливают Украину и дают фору Илону Маску

2 апреля 2023

Twitter опубликовал часть исходного кода своих алгоритмов рекомендаций — механизма, который позволяет некоторым пользователям покорять новые аудитории, а других прячет в «теневой бан». Благодаря желанию владельца компании Илона Маска сделать ее прозрачной пользователи узнали, что политические события в некоторых странах (например, Украине, Бразилии, США) имеют свои особые алгоритмические решения, а правительство потенциально может вмешиваться в работу алгоритма. Для аккаунта Илона Маска же, похоже, прописана своя особая рекомендательная система, чтобы показывать его профиль как можно большему числу людей.

Алгоритмы не вне политики

В опубликованной части алгоритма твиттера упоминаются слова, связанные с политической ситуацией. Один из самых удивительных примеров - «украинский кризис» (UkraineCrisisTopic). Эта категория относится к «маркировкам безопасности» (safety labels) и находится по соседству с координированной травлей, фейками, контентом для взрослых и нарушениями авторского права (CoordinatedHarmfulActivity, Misleading, Nsfw, MedicalMisinfo, GenericMisinfo, DmcaWithheld). Можно предположить, что эти маркировки призваны понижать контент в рейтинге. Либо речь идет о лейблах, которые появились еще в 2020 году - с их помощью твиттер отмечает потенциально вредный контент. В названии переменной нет никакого указания на то, какой контент, связанный с войной в Украине, может получить такой лейбл. Возможно, это контент, на который жалуются пользователи, или в котором содержатся жестокие кадры, а может быть и вообще любой контент. Так как код не документирован, и комментариев разработчиков в нет тоже нет, утверждать достоверно невозможно. Однако украинские пользователи в последние недели замечали, что их твиты стали получать меньше охватов, чем раньше.

Похожие лейблы могли использоваться в таком же контексте для выборов в Бразилии, США, Франции, на Филиппинах, а также в отношении вакцины от COVID-19. Однако сейчас на них стоит пометка «deprecated», то есть «нерекомендуемый».

Еще раз «украинский кризис» появляется в алгоритме, видимо, в связи с причинами бана пользователей (policyInViolationToReason). Там он тоже является единственной причиной, связанной с геополитикой. Другие касаются мошенничества, харассмента, оправдания насилия в целом и так далее.

Кроме того, 31 марта пользователи заметили, что в алгоритме были переменные, связанные с именем самого Илона Маска. Они, по всей вероятности, повышают его твиты в ленте всех пользователей независимо от того, подписаны ли они на нынешнего владельца Twitter.

Судя по всему, Маск является единственным пользователем, рекомендации которого жестко заданы в коде. Предположительно, твиттер сравнивает между собой как «залетают» твиты Маска, республиканцев и демократов - то есть, по сути, как и заявлял в общих словах владелец Twitter, собирает статистику. Правда, как именно маркируются в данном случае «демократы» и «республиканцы», то есть получают ли маркировку все предполагаемые сторонники этих американских партий или только политики, которые четко обозначили свою ассоциацию - неизвестно.

Twitter помогает показывать вам не только аккаунты людей, которые могут быть похожи на вас и постить интересный вам контент. Отдельно он может начать подбрасывать в ленту кандидатов на выборные должности. Касается ли это только американских выборов или других стран тоже - сказать сложно.

То же самое происходит и с рекомендациями от Twitter, на кого вам подписаться - помимо прочего, он предложит вам подписаться на кандидатов на выборные должности.

Для США и некоторых других стран Twitter остается основной соцсетью, где люди обсуждают выборы. В прошлом году Twitter ввел для американских кандидатов особые маркировки в аккаунтах. В 2022 году газета Washington Post провела собственное расследование и обнаружила, что некоторые фейки о выборах, в особенности распространяемые Республиканской партией США, не получают маркировку о ложной информации. В то же время твиты, в которых содержалась ложная информация на другие темы, стали маркироваться при Маске даже чаще, чем после введения таких маркировок.

С одной стороны, Twitter пытается сам влиять на популярность кандидатов на выборах, но с другой стороны не скрывыает, что алгоритмы не мешают вмешиваться в внутренние процессы государствам. Иначе зачем бы разработчики компании завели целый класс под названием «По запросу правительства» (GovernmentRequested) - наравне с другими рекомендательными классами типа «Будь в курсе», «Последние новости» и “Недостоверный контент».

Social credits за лайки и шитпост

Twitter также опубликовал ту часть кода, в которой прописан вес действий с твитами, которые делают его потенциально более популярным. Оказалось, что самый большой вес имеют «лайки» (favorites) - чем их больше, тем больше шансов, что твит попадет в рекомендованные.

У «лайков» 30 баллов, на втором месте ретвиты - у них 20 баллов. От двух до четырех баллов дает Twitter Blue - платная галочка верифицированного аккаунта. То есть если пользователь платит за подписку на твиттер, его твиты могут попадать в рекомендации чаще, чем у тех кто не платит. Раньше «синяя галочка» давалась только тем пользователям, кто подтвердил свою личность через особую процедуру. Появление платного знака верификации вызвало опасения у специалистов по безопасности - они сразу же заметили мошеннические и фейковые аккаунты, которые притворяются официальными органами власти или компаниями. Однако из-за того, что они купили «галочку», к ним потенциально возникнет больше доверия.

Кроме того, чаще будут показывать пост людям из вашего «ближнего круга», или пост с фото или видео. Вероятно, играет роль то, насколько на «свои темы» вы пишете - на это может указывать переменная luceneScore. В ней содержится название алгоритма, который используется в том числе чтобы находить похожие темы. Возможно, это означает, что если вы всегда постите котиков и нытье по поводу работы, а потом в один день выходите на митинг против правительства, то ваши твиты по поводу митинга будут понижены в рейтинге.

Понижаются в рейтинге сообщения без текста или с одной только ссылкой - такие часто постят спамеры. Внимание пользователей привлек лейбл «unknownLanguage», вероятно понижающий попадание твита в ваши предложенные. Кто-то считает, что речь о языках, которым Twitter не сможет присвоить маркировку конкретного языка - например, сюда попадут татарский, чеченский и все другие языки, которым пользуются россияне, кроме русского и украинского. Такая же участь может постигнуть тысячи других языков мира, которые не просто не внесены в архитектуру Twitter, но довольно редко имеют любой машинный перевод. Однако, возможно, речь идет о том, что пользователю будут чаще показывать контент на тех языках, на которых он уже читает.

Кроме того, часть прописанного алгоритма для отбора персонально рекомендованных твитов указывает на то, что чаще всего будут предлагать таких пользователей, которые много постят. Условно, если политик, активист или ученый не постит постоянно, его новые твиты с меньшей вероятностью будут рекомендованы. Зато у человека, который каждый день постит хотя бы какой-то контент, а иногда еще и фотографии, многие твиты в большей вероятностью попадут в ленту рекомендованного.

Прозрачность лучше непрозрачности

Twitter стал первой большой айти-компанией, которая опубликовала свои рекомендательные алгоритмы. Анонсировав публикацию алгоритма, Илон Маск упоминал, что некоторые из них могут указывать на прямое вмешательство в рекомендательные системы. Невозможно сказать, какая часть кода, опубликованного 31 марта - 1 апреля, была написана недавно, а какая еще до покупки компании Маском. Также важно понимать, что в коде есть очень немного комментариев - пометок от разработчиков, где объяснялось бы, что делает та или иная функция, что в точности означает тот или иной лейбл.

Хороший пример того, почему не стоит угадывать, что означают названия переменных - константа «n**ger_thread», многие годы существовавшая в исходном коде поисковика «Яндекса». Про нее знали некоторые сотрудники, однако после утечки кода в январе 2023 года компания признала ее существование, так как пользователи, не работавшие в «Яндексе», стали указывать на то, что в коде присутствуют недопустимые слова. Тем не менее, мы даем тут возможные трактовки некоторых названий переменных, лейблов и функций, предполагая, что эти названия давали так, чтобы они были максимально точными и внятными.

Нам очень нужна ваша помощь

Подпишитесь на регулярные пожертвования