среда, 3 декабря 2014 г.

Твиттер и анализ информации о розничных ценах и не только

В продолжение недавней публикации о социальном мониторинге цен с помощью Твиттера рассмотрим некоторые дополнительные нюансы, оставшиеся за кадром.

Пожалуй, самая большая проблема Твиттера в том, что он не знает русского языка, точнее его морфологии. Разумеется, мы можем легко строчить твиты на русском, но, в зависимости от контекста, одно и то же слово может быть введено в различных словоформах, которые затем не будут найдены штатными средствами поиска Твиттера. Есть несколько способов решения проблемы - каждый со своими недостатками. Можно придерживаться правил ввода значащей информации (название товара, его характеристики, название магазина) в именительном падеже, правда вряд ли все пользователи смогут придерживаться такой дисциплины. А можно создать внешний индексирующий сервис для Твиттера. Существующие службы аналитической обработки твитов (например, Twitonomy), к сожалению, тоже не очень жалуют русский, а стандартные поисковые сайты, похоже не опускаются до уровня твита, - по крайней мере на Google поиск по ключевым словам в Твиттере выдает в первую очередь совпадения по именам пользователей, а не содержательную часть сообщений. Но в любом случае, для анализа цен, буквально проскакивающих в Твиттере, важна оперативность индексации и выдачи результатов, а ни один общеизвестный поисковик эту задачу не решает.

Другая проблема Твиттера - читабельность сообщений с тегами. Действительно, все в один голос признают, что текст с хэштегами хуже воспринимается. Возникает вопрос: зачем вообще их использовать? При максимальной длине сообщения 140 символов, каждое слово в нем следовало бы рассматривать как ключевое. Эта точка зрения подтверждается самими разработчиками Твиттера, которые выводят в блок трендов не только хэштеги, но и простые слова, причем последних бывает намного больше. Не было бы никакой сложности в том, чтобы все слова твита сделать ссылками (для улучшения читабельности не обязательно их подчеркивать привычным стилем ссылок), ведущими на страницу с их поиском, как это сделано для хэштегов. Ведь Твиттер в любом случае индексирует не только хэштеги.

Тут мы подходим к еще одной проблеме. К сожалению, сейчас поиск в Твиттере по одному и тому же слову вместе с символом решетки и без него выдает совершенно разные результаты, то есть хэштеги индексируются независимо от простых слов, хотя было бы намного удобнее, если бы символы после '#' попадали в общий индекс слов. Это вынуждает опытных пользователей упоминать в твите важные слова 2 раза - один раз сами по себе, а другой - в качестве хэштега. А тем, кто что-либо ищет, для надежности приходится указывать при поиске два запроса - и хэштег, и просто слово без решетки. Объединить их в одном запросе не получится, потому что хэштег, судя по всему, "перебивает" по "важности" простое слово, и среди результатов Вы в первую очередь увидите более старые твиты с хэшем, вместо более свежих с простым словом.

Все это наводит на мысль, что Твиттер представляет собой "голую" основу для хранения сообщений, а средства их анализа и релевантного поиска нужно "прикручивать" свои.

Что же касается использования или неиспользования хэштегов в сообщениях для сервиса ПрайсЛайн, то здесь самое главное - тег #прайслайн - он должен быть, а все остальные - опциональные. Правда, выделение типа и названия товара, производителя, магазина в виде хэштегов позволит упростить толкование сообщений аналитическими алгоритмами (тем же сервисом индексирования, например). Кроме того, с хэштегами значительно улучшается идентификация по названиям, состоящим из нескольких слов (например, #ДомикВДеревне).

Комментариев нет:

Отправить комментарий