суббота, 6 декабря 2014 г.

Продолжаем анализ информации в Твиттере

Запуск сервиса мониторинга Твиттера позволяет посчитать некоторую статистику и сделать первые выводы.

  • Дубликаты одинаковых сообщений с разных учетных записей, в том числе ботов (не ретвиты) - более 25%;
  • Дубликаты, сделанные реальными пользователями в виде ретвитов, - более 10%;
  • Твиты с ссылками для перехода куда-то (то есть, либо рекламные, либо не содержащие самодостаточного количества информации) - более 50%;
  • 5% - это вопросы по теме, а не ответы;

Получать в таких условиях релевантную информацию о ценах было бы затруднительно. Наличие спама - это, конечно, один из факторов, оправдывающий фильтрацию результатов поиска Твиттером. Но палка, как известно, о двух концах. Без возможности регулировать этот "родительский контроль", Твиттер вынуждает применять дополнительные аналитические сервисы для управляемого получения информации.

Возвращаясь к вышеуказанным трем пунктам, в сообщениях ПрайсЛайн по замыслу должна содержаться вся полезная информация о товаре и цене, так что никаких "лишних движений" для принятия решений о покупке не потребуется. А спам можно будет убрать и здесь. Более подробно об этом - в следующей публикации.

Между прочим, одно и то же ключевое слово пользователи предпочитают писать без тега в 2-4 раза чаще, чем с хэштегом - поэтому искать в полнотекстовом индексе однозначно лучше просто по словам, а не по тегам. Ну а если такая статистика из-за того, что кому-то из пользователей трудно вводить "решетку" в браузере - предлагаю обратить внимание на расширения для Chrome - HashTagger ;-).

Комментариев нет:

Отправить комментарий