Евгений Степанищев

Я — эксперт в области разработки веб-приложений и безопасности в интернете. Каждый месяц мой блог посещают около 90 тысяч человек. Работаю техническим директором в «Системах документооборота», занимаюсь электронным правительством.

Избыточность интернета и поиск в интранете

Все, вероятно, знают, что интернет очень избыточен — одни и те же документы, мысли, советы и так далее могут располагаться, в зависимости от популярности, на огромном количестве ресурсов. Одно и то же повторяется сотни, тысячи и сотни тысяч раз.

Наверное, многие веб-мастера думали — было бы здорово чтобы один и тот же документ всегда лежал по одному и тому же адресу. Ссылки бы не устаревали (а авторские права всегда соблюдались). В своём маленьком мирке это воплотила «Ярушечка» — там можно не копировать, а цитировать чей-либо пост и источник сразу будет виден.

Конечно избыточность в интернете полезна. Про первую причину многие знают: избыточность позволяет бороться с реальностью, а в реальности сервера падают, сайты закрываются, потому и хорошо, что документы могут оказаться на альтернативных сайтах.

Но есть и вторая причина. До неё я додумался, когда стал анализировать почему поиск в нашем интранете меня не устраивает. Ожидаемо (правда?) что для поиска по документам, рассылками и прочему во внутренней сети у нас используется поисковик «Яндекса». Но я обратил внимание, что качество поиска куда ниже ожидаемого мной. В чём же дело?

Дело, как вы уже, наверное, догадались в избыточности. Из-за богатства нашего языка, в независимости от того, видел я этот документ раньше или ищу что-то незнакомое (например, совет по проблеме) существует огромное количество формулировок для моего запроса. Спасает избыточность — велика вероятность, что мой запрос присутствует в интернете во множестве различных вариаций. Конечно, это не всегда так (если я ищу что-то редкое), но это так с большой вероятностью.

В интранете всё не так, тут элементарно меньше народу и выше упорядоченность. Меньше избыточности, меньше объём, поэтому запрос приходится формировать очень точно, ключевые слова приходится перебирать чаще. Очевидно, что и качество поиска от этого страдает. Т. е. для интранета, где своя специфика, нужен собственный поисковик.
11 комментариев
31 марта 2009 20:03

Joke exchange

Шутка про повторяющиеся встречи (9.84КБ)
7 комментариев
31 марта 2009 12:40