Google рассказал об индексации PDF

Google рассказал об индексации PDF В своём блоге Google рассказал о том, как поисковые роботы индексируют электронные таблицы, презентации и PDF-файлы. Как выяснилось, Google способен индексировать содержимое PDF-документа, написанного на любом языке, при условии, что он не защищен паролем и не зашифрован.

Специальные OCR алгоритмы позволяют извлекать текст, представленный даже в виде изображения. Однако картинки из PDF-файлов не индексируются. Ссылки же из PDF-документов обрабатываются также как и ссылки из HTML.

Вопреки распространенному мнению, HTML-файлам не отдается никакого приоритета при ранжировании. Таким образом, качественное содержание и ссылки с других ресурсов могут позволить занять PDF-файлу более высокие позиции в поисковых результатах чем HTML-файлы. Однако при желании PDF-файлы могут не появляться в результатах поиска. Для этого нужно в заголовке HTTP использовать X-Robots-Tag: noindex.

Заголовок в выдаче отображается с помощью метаданных tittle и текста анкоров из ссылок, ведущих к PDF. Эти параметры стоит обновить, чтобы дать алгоритму сведения о правильном названии.

* * *

Техника от Apple, несомненно, отличается надежностью, но бывают же и исключения. Поэтому, если вам понадобился ремонт iphone или iPad, то вам поможет сервисный центр iHELP, который готов выполнить ремонт любой сложности.