X только что опубликовал код алгоритма «Для вас» с открытым исходным кодом Все, что вам нужно знать, в 1 твите и 1 изображении: 1. Сырые данные (данные) Все начинается с трех больших категорий данных: - Социальная графика → кого вы подписаны, кто подписан на вас, ваши сетевые связи. - Взаимодействие с твитами → лайки, ретвиты, ответы, закладки. - Данные пользователя → ваш профиль, поведение, на что вы нажимаете, что игнорируете. Это «топливо», которое питает всю систему. 2. Инженерия признаков Сырые данные проходят через различные модели/признаки, которые пытаются их осмыслить: - GraphJet → граф твитов, ретвитов, подписок в реальном времени. - SimClusters → группирует людей и твиты в сообщества интересов (например, «AI Twitter» или «NBA Twitter»). - TwHIN → «гетерогенная информационная сеть» Twitter, по сути, карта отношений пользователь-твит. - RealGraph → предсказывает силу связей между пользователями. - TweepCred → оценка надежности. ...