ОТЗЫВ ЛОЖЬ, ДА В НЕМ НАМЕК
Когда мы думаем, скачать ли какое-то интересующее нас, но малоизвестное мобильное приложение, то обязательно читаем отзывы. И нередко в процессе чтения ловим себя на ощущении, которое трудно интеллектуализировать: мы чувствуем, что какие-то из этих отзывов фальшивы, то есть оставлены специально нанятыми людьми, расхваливающими продукт, чтобы обманом способствовать увеличению числа загрузок.
Отделить в этой ситуации зерна от плевел может быть непросто, если разработчики не полные идиоты и стремятся разнообразить свои фейковые тексты.
Но сколько веревочке ни виться, а кончику быть.
Мы решили испытать в этом деле алгоритм, предложенный недавно (https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0236832) для идентификации интернет-троллей. В качестве опытного образца было взято вдохновленное популярным некогда Pokémon GO приложение HISTARS — продукт фирмы «Информационный город ГКУ», ответственной также за создание скандального «Социального мониторинга».
У игры HISTARS, которая использует технологию дополненной реальности и предлагает пользователям возможность сфотографироваться с 3D-моделями исторических персонажей на фоне городских пейзажей, не самый плохой рейтинг в магазине Google Play — 3.7. Однако этот рейтинг представляет собой среднее двух крайностей — пятизвездочных и однозвездочных отзывов. Промежуточных вариантов почти нет, что, конечно, вызывает определенные подозрения.
Мы скачали и обработали все рецензии HISTARS с высшим баллом, после чего, последовательно удаляя из группы по одном отзыву, проверяли оставшиеся описанным в статье способом. Через некоторое время звоночек прозвенел: система классифицировала набор из 30 с лишним текстов как фейковый.
На прикрепленной схеме хорошо видно, как это работает: линии внутри синего круга соединяют слова, которые употребляются вместе как минимум в двух отзывах. Чем жирнее линия, чем чаще повторяется соответствующая пара слов. Бросается в глаза, что слова из расположенного в левом нижнем углу кластера тянут свои щупальца ко всем остальным группам — это и есть тот главный месседж, который воспроизводится (и разбавляется другими лексическими средствами) в остальных лжерецензиях.
Например, так:
1) «Отличное положение! Жду и надеюсь на фигурки в Туле (круто было бы добавить Толстого и Вересаева)».
2) «Классное приложение, нам бы в. г. Ханты-Мансийск Ярмака Тимофеевича, Меньшикова А. Д., Николая II, Остермана А. И. и т. д.».
3) «Очень круто. Добавьте Ленина и Высоцкого».
4) «Отлично. Хотелось бы побольше виртуальных персонажей. В разделе Личности приложения Узнай Москву их целый список. Ещё можно было бы добавить литературных персонажей и героев кино. Например, профессора Преображенского возле дома на Пречистенке или кота Бегемота возле Смоленского гастронома:)».
5) «Очень классное приложение. Только добавьте Сталина и Ленина».