Почему Google намного быстрее, чем поиск на жестком диске?

Когда я ищу файл на своем HD в Windows 7 или Windows XP, для завершения процесса требуется несколько минут. Если я заполню поисковый запрос в Google, ответ будет на моем экране в миллисекундах

Как Google может искать в Интернете, который во много раз больше моего жесткого диска, быстрее, чем моя ОС может искать мой компьютер? Это только вопрос вычислительной мощности и правильного алгоритма?

  • Windows: переключение фронтального или заднего аудиоразъема с помощью программного обеспечения?
  • Что такое вкладка «Альтернативная конфигурация» в настройках TCP / IP
  • Как увеличить размер моего диска C на XP
  • Как установить проводник Windows в Windows 7 для отображения метаданных / тегов файлов Ogg Vorbis (.OGG) в режиме «Подробности»?
  • Как отключить мигающие значки на панели задач Windows 7?
  • Нет Windows после установки Kali
  • Windows 7 любит крушить меня каждую неделю
  • Что означает светло-фиолетовый цвет в uTorrent
  • 10 Solutions collect form web for “Почему Google намного быстрее, чем поиск на жестком диске?”

    Google не ищет в Интернете: он ищет индекс. Google имеет огромные серверные фермы, которые постоянно сканируют и индексируют Интернет. Этот процесс занимает много времени, точно так же, как поиск вашего неиндексированного жесткого диска. В Windows 7 есть возможность индексировать ваши жесткие диски. Сначала этот процесс занимает некоторое время, но как только он будет запущен, результаты поиска будут мгновенными.

    Если вы хотите узнать больше о том, как работает поиск Google, вы можете прочитать статью Google « Как работает поиск » или прочитать статью « Как работает материал: как работает Google ».

    Google похож на поиск желтых страниц для адреса (с индексом). Поиск в Windows сродни движению вокруг проверочных номеров в зданиях (без индексирования).

    Другая аналогия – это поиск хорошо организованной библиотеки и карточного каталога или просто сортировка по неорганизованной куче книг каждый раз.

    По сути, это все организационные работы, выполненные до поиска, что делает его быстрым.

    FYI: при поиске индексированных местоположений поиск в окнах может быть столь же отзывчивым.

    Бизнес Google – это поиск (и обслуживание рекламы), и это очень сфокусировано на этом. Есть много вещей, которые Google делает для обеспечения быстрого возврата данных:

    • Сначала он использует MapReduce и PageRank для создания всеобъемлющего индекса Всемирной паутины. Он регулярно обновляет эту информацию, чтобы результаты были свежими.
    • Этот индекс распространяется и реплицируется на многих серверах Google
    • Ваш запрос разбит на несколько серверов для построения возвращенных результатов. Это позволяет высокопараллелизировать процесс.
    • Общие запросы и результаты кэшируются, что уменьшает необходимость выполнять поиск вообще.

    См. Эту ссылку для получения дополнительной информации о том, как работает поиск

    Сравнительно поиск на жестком диске без индекса должен считывать каждый файл на диске, и это может занять много времени.

    Кроме того, вы можете рассматривать как файловую систему, так и индекс как дерево. В файловой системе корень дерева является папкой верхнего уровня, и он может иметь ветви (папки) или листья (файлы) в этой папке. Каждая ветка может иметь вспомогательные ветви для большего количества папок и оставляет для большего количества файлов. Чтобы найти эту структуру, вам нужно «пройти» все ветви (и подсечки), чтобы найти лист, который вы ищете. Индекс переворачивает эту иерархию. Основание становится алфавитом и всеми дополнительными деталями на этом. Листья – это местоположение предмета, который вы ищете. Поиск этой структуры позволяет обрезать (исключать) большие разделы дерева (например, первая буква вашего поискового запроса позволяет сразу же обрезать 25 других ветвей).

    Около 4 лет назад я тоже задал себе тот же вопрос. Но по мере того, как я искал поисковые запросы, я в конце концов прочитал, что помимо того, что они нанимают лучших из лучших, чтобы придумать некоторые из самых сложных алгоритмов поиска и все такое.

    Я думаю, что один из ключевых моментов, которые они использовали, похож на идею сокращения карты. У вас много дешевых компьютеров на фермах. Пусть эти компьютеры имеют всего около 80 гигабайт свободного места на жестком диске и сильно работают на 16 ГБ оперативной памяти или даже лучше 32 гигабайта на этих компьютерах (насколько это возможно). Помните, что они связаны через сложную систему, которую они разработали. Но основная идея здесь заключается в том, что когда запрос отправляется, он передается в их систему, где он будет пытаться и искать свежие данные в ОЗУ. Имейте в виду, что у них много таких дешевых компьютеров. А поскольку данные находятся в ОЗУ, это обнаруживается намного быстрее, чем на жестком диске. Но не забывайте, что у них есть сложная (индексирующая и все эти алгоритмы) система, которая очень помогает.

    И эти данные не обязательно должны быть свежими, потому что все мы знаем, что Google хранит все. Что касается того, что должно быть в ОЗУ, можно использовать тот же принцип, что и в splay деревьях, сохранить то, что когда-либо люди ищут больше всего в ОЗУ, и очистить наименее искаженный материал до жесткого диска.

    Эта небольшая идея в сочетании с их индексацией и другими вещами, упомянутыми другими в ответах, может быть одной из причин, по которой она быстрее, чем поиск на жестком диске.

    • Возможность предсказать на основе других поисков.
    • Данные, скорее всего, в ОЗУ, которые мы все знаем быстрее.
    • Используйте несколько систем для разделения и завоевания
    • Поиск – их главный приоритет.

    Конечно, я мог ошибаться, но это имело смысл для меня. И я был доволен тем, что узнал.

    Google использует чрезвычайно сложную систему индексирования, параллельные операции и ряд методов балансировки нагрузки, недоступных для стандартного автономного компьютера. Существует очень мало сходства между поиском в Интернете и поиском файлов на жестком диске, а google оптимизирует их для конкретных случаев использования.

    В 2004 году некоторые сотрудники Google опубликовали документ: MapReduce, и с тех пор они улучшались в сотни раз.

    Кроме того, они используют файловую систему Google (GFS), которая является распределенной файловой системой, такой как Hadoop Distribud File System (HDFS) и чрезвычайно оптимизирована для их целей. Также, насколько я знаю, GFS работает, может быть, на тысячу раз быстрее, чем HDFS .

    Я думал, что добавлю к этому, поскольку у меня тоже был этот вопрос некоторое время назад, и я нашел эти отличные видеоролики, которые описывают, что делает Google на поверхности. Интересно смотреть.

    Google на Youtube 1
    Google на Youtube 2

    Он идет немного глубже, но не настолько глубоко, что вы теряетесь в техническом отношении.

    Приветствия.

    Просто добавив кое-что к замечательным ответам здесь. Google использует кеширование популярных поисковых фраз. Результаты этих поисков находятся в памяти. Поэтому, если вы ищете что-то, что много искалось, результаты будут отображаться почти сразу.

    Чтобы ответить на вопрос на упрощенном уровне: представьте, что у вас есть учебник с индексом ключевого слова на обороте.

    Поиск на жестком диске (наивно, по крайней мере) – это как просмотр книги, страница за страницей, проверка каждой строки на наличие ключевого слова.

    Использование поисковой системы в Интернете – это поиск ключевого слова в индексе, а затем обращение непосредственно к номеру страницы, который он дает.

    В действительности, конечно, это намного сложнее, чем это. Например, вы обычно будете искать свой жесткий диск для различных видов информации, чем в Интернете. Но основная вещь, которую нужно убрать, это то, что поисковая система использует индекс. Он уже прошел через «книгу», слово за словом, и он составил список этих слов вместе с тем, где их найти, и он организовал список таким образом, чтобы он мог быстро находить вещи в нем ,

    Например, подумайте об организации индекса в книге. Во-первых, он обычно сортируется в алфавитном порядке, а во-вторых, он может иметь заголовки букв. Когда вы посмотрите слово в индексе, вы сразу увидите список слов, начинающихся с буквы, которую вы хотите. И поскольку список сортируется, легко найти нужное слово в списке или быстро рассказать, если он отсутствует.

    Итак, чтобы подвести итог, это похоже на то, что на вашем жестком диске есть книга, в то время как поисковая система имеет индекс. Хотя, как указывали некоторые другие, можно использовать программное обеспечение для индексации вашего жесткого диска, а затем вы можете использовать индекс вместо всего этого.

    Я предполагаю, что одна из причин, по которой Google появилась в Auto Complete и использование AJAX было проблемой скорости. Теперь, когда вы печатаете, слова отправляются в фоновом режиме, поэтому Google может выполнять часть работы, пока вы еще не закончили. Также индексы основаны на нескольких комбинациях слов (которые вы можете найти в качестве предложений в нижней части страницы). В настоящее время скорость сети выше, чем у жестких дисков, и, вероятно, большая часть этих индексов находится в ОЗУ серверов в их ферме.

    Interesting Posts

    Лучший способ передачи файлов через Интернет?

    Соединение wi-fi периодически падает на несколько секунд

    Мое ядро ​​2 quad q6600 составляет 90 с, а в BIOS (монитор H / W) (с кулером intel share)

    Как удалить запись в Auto Complete в Microsoft Edge

    Не удается получить nmap-информацию от Brainpan2

    Почему мой проводник Windows больше не обновляется?

    Почему зарядка мобильных устройств через USB настолько медленная?

    Как заблокировать экран на Mac OS X?

    Как сохранить вывод строки в результате, возвращаемом командой bash

    Выравнивание разделов расширенного формата

    Как узнать, поддерживает ли SSD-накопитель TRIM?

    Возможно ли создать индивидуальные настройки питания для каждого жесткого диска?

    Как переписать одну и ту же строку в командном выводе из командного файла

    Как сохранить веб-страницу в Firefox – сохраненная версия снова отображает «просмотр предыдущих комментариев»

    Объединение проводной сети с сетью ad-hoc

    Давайте будем гением компьютера.