»Статьи / Раскрутка и реклама / История Yandex
»
  https://world1000.net/page.php?id=425

Автор: , Отправлено: 2008-11-04 12:35.
За два года работ были созданы две информационно-поисковые системы — Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. И до сих пор, особенно по весне, в CompTek обращаются изобретатели-одиночки в надежде на появление новых редакций. Обе системы работали под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов.<br />
В 1993 году «Аркадия» стала подразделением CompTek. 1993–1994 годы в результате его сотрудничества с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН) программные технологии были существенно усовершенствованы. В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.<br />
На основе новой технологии в 1994 году был создан «Библейский компьютерный справочник» (информационно-поисковая система, обеспечивающая работу с Синодальным переводом Ветхого и Нового Заветов).<br />
В 1995 году стартовал проект «Академическое издание классиков на CD ROM», разрабатываемый совместно с НТЦ «Информрегистр» и ИМЛИ им. М.Горького РАН при поддержке Роскоминформа. Для этого проекта была создана универсальная технология «Аргонавт», которая включала как средства разметки и отображения текстов, так и средства навигации, а так же различные поиски — и текстовые, и атрибутные. На основе этой технологии вышло 3 издания – справочник стандартов «Информ – Норматив», электронное научное издание «А.С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.<br />
В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю — если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. <br />
В это время Интернет в России только начинался... <br />
Новая история (до Yandex.Ru)<br />
<br />
Летом 1996 года руководство CompTek и разработчики поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий. Тогда в Интернете и появился «Яndex». <br />
Слово «Яndex» придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. «Яndex» означает «Языковой index», или, если по-английски, «Yandex» — «Yet Another indexer». За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву («I» — «Я»), получится «Яndex».<br />
На выставке Netcom&裟96, 18 октября 1996 года, CompTek анонсировал первые продукты серии Яndex (Яndex.Site, Яndex.Dict). Яndex.Site — поиск по своему сайту — сейчас установлен на сотнях серверов Рунета. Яndex.Dict, морфологическое расширение запроса, используется до сих пор для, например, передачи запроса на AltaVista, хотя сегодня это уже не так актуально — AltaVista индексирует русский Интернет гораздо хуже, чем русские поисковые машины.<br />
Через полгода появился Яndex.CD — поиск документов на CD ROM, а затем Яndex.Lib — полнофункциональная библиотека Яndex для встраивания в различные приложения и базы данных.<br />
Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.<br />
Необходимость поддерживать работу Yandex.Ru в условиях больших объемов (200 Гб текстов) и больших нагрузок (несколько запросов в секунду) ведет к оптимизации алгоритмов, которые потом используются и в других продуктах Яndex.<br />
Новейшая история Yandex.Ru<br />
<br />
Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.<br />
<br />
Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета — «Web – гуманизм или чернуха?». А в разделе «Числа» — первая оценка объема Рунета, 5 тысяч серверов и 4Гб текстов.<br />
Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас — 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.<br />
В 1998 году на Yandex.Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость поиска на Yandex.Ru — доли секунды.<br />
За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex.Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex.Ru вдвое больше, чем у ближайших конкурентов.<br />
Новый робот позволил предоставить пользователям новые возможности – поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» — количество ресурсов, ссылающихся на данный.<br />
<br />
В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис — подписка на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

Версия для печати