На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2005-6-7 на главную / новости от 2005-6-7
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 7 июня 2005 г.

Число документов в Рунете перевалило за миллиард

Участники научного проекта Nigma.ru, интеллектуальной поисковой системы, провели оценку суммарного объема русскоязычных документов в поисковых системах. По состоянию на середину мая 2005 г. в Интернете имелось примерно 1 052 227 229 русскоязычных документов.

Это вторая попытка группы посчитать количество документов Рунета — первая окончилась неудачно, так как предложенный тогда алгоритм не обладал устойчивостью: при изменении некоторых параметров оценка числа документов не колебалась около равновесного решения, а резко изменялась.

Новый алгоритм лишен этого недостатка — он основывается на “закачивании” случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины с известным размером ее базы.

Первоначально устранение дублей происходило по URL и заголовкам документов, однако с использованием частотного словаря во второй версии количество дублей резко сократилось, и сейчас применяется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Можно предположить, что не более 20--30% документов Рунета осталось непроиндексированными ни одной из поисковых машин, задействованных в проекте Nigma.ru.

О. Б.

 

← май 2005 2  3  5  6  7  8  9  10  12 июль 2005 →
Реклама!
 

 

Место для Вашей рекламы!