Как я могу знать, Сколько и какие страницы, файлы моего сайта способны проверкой поисковыми системами?
Они все crawlable, если другая страница связывается с ними. Можно препятствовать тому, чтобы определенные поисковые роботы индексировали страницы с файлом robots.txt, который они, как предполагается, уважают, но даже с каждым на месте существуют, вероятно, поисковые роботы, которые не будут уважать его. Я знаю, что большие мальчики там (Google, Yahoo, Bing...) будут уважать файл robots.txt, но существуют, вероятно, меньшие там, которые не могут.
Я нашел свой ответ здесь
http://www.seobench.com/search-engine-crawler-simulator/index.php