Запуск сервиса мониторинга Твиттера позволяет посчитать некоторую статистику и сделать первые выводы.
- Дубликаты одинаковых сообщений с разных учетных записей, в том числе ботов (не ретвиты) - более 25%;
- Дубликаты, сделанные реальными пользователями в виде ретвитов, - более 10%;
- Твиты с ссылками для перехода куда-то (то есть, либо рекламные, либо не содержащие самодостаточного количества информации) - более 50%;
- 5% - это вопросы по теме, а не ответы;
Получать в таких условиях релевантную информацию о ценах было бы затруднительно. Наличие спама - это, конечно, один из факторов, оправдывающий фильтрацию результатов поиска Твиттером. Но палка, как известно, о двух концах. Без возможности регулировать этот "родительский контроль", Твиттер вынуждает применять дополнительные аналитические сервисы для управляемого получения информации.
Возвращаясь к вышеуказанным трем пунктам, в сообщениях ПрайсЛайн по замыслу должна содержаться вся полезная информация о товаре и цене, так что никаких "лишних движений" для принятия решений о покупке не потребуется. А спам можно будет убрать и здесь. Более подробно об этом - в следующей публикации.
Между прочим, одно и то же ключевое слово пользователи предпочитают писать без тега в 2-4 раза чаще, чем с хэштегом - поэтому искать в полнотекстовом индексе однозначно лучше просто по словам, а не по тегам. Ну а если такая статистика из-за того, что кому-то из пользователей трудно вводить "решетку" в браузере - предлагаю обратить внимание на расширения для Chrome - HashTagger ;-).
Комментариев нет:
Отправить комментарий