27.07.2011 09:12
    Поделиться

    Поиск персональных данных в интернете превратился в развлечение среди пользователей

    Поиск персональных данных в поисковиках превратился в развлечение среди интернет-пользователей. А все потому, что администраторы сайтов не знают, как работать с файлом robots.txt

    Еще в сороковых годах прошлого века фантаст Айзек Азимов сформулировал три закона робототехники. Те, кто не слышал о них, могут обратиться к "Википедии". К счастью, хотя бы первый закон, гласящий, что робот не может причинить человеку вред, выполняется неукоснительно, иначе газеты были бы завалены заметками о том, как сбредивший робот-убийца в очередной раз терроризирует население маленького городка в Оклахоме (ну или московского района Жулебино).

    Но есть еще один тип роботов, о котором все забыли. Это незаметные файлы robots.txt, которые должны присутствовать на каждом сайте и, в частности, "рассказывать" поисковым системам о том, что делать с содержимым этих ресурсов - индексировать или нет, делать найденный контент доступным в поисковой выдаче или все-таки не стоит. Последняя неделя дала понять, что эти роботы могут нанести вред человеку, да еще какой.

    Сразу после истории с "Мегафоном" - напомню, SMS-сообщения, отправленные через сайт оператора, обнаружились в поисковой выдаче "Яндекса" - довольно быстро выяснилось, что администраторы сайтов повально то ли забывают, то ли просто не умеют редактировать "файлы-роботы". Первой жертвой этого явления, как мы помним, пал "Мегафон", а в минувший понедельник выяснилось, что множество российских интернет-магазинов радостно раздают поисковикам информацию о заказах пользователей.

    В перерыве между этими событиями весь Рунет усиленно обыскивал поисковые системы и находил все новые и новые доказательства криворукости сисадминов. В неумении разобраться с robots.txt расписались администраторы пермского портала PRM.RU, через который можно отправлять SMS-сообщения (которые также обнаружились в выдаче), а также сайта российской почты - по наблюдению Антона Носика, в "Яндексе" обнаружились трекинги посылок, причем в ряде случаев вместе с адресами получателей. Наконец, уже 26 июля выяснилось, что в выдаче крупнейшего отечественного поисковика можно найти заполненные бланки электронных билетов на поезда РЖД. Этим знанием поделилась с читателями редакция Lenta.ru.

    Разорвать порочный круг попробовали сотрудники все того же "Яндекса", которые опубликовали в разделе для веб-мастеров пост под названием "Почему находится всё". В сообщении вполне доходчиво сформулированы "два правила робототехники": личную информацию пользователей нужно закрывать паролем, а в robots.txt прописать запрет на индексацию страниц, которые не должны быть публичными. Там же приводится ссылка на подробный FAQ, посвященный обращению с этим файлом.

    В компании подчеркивают, что "правила использования robots.txt" опубликованы на сайте help.yandex.ru достаточно давно, но сотрудникам пришлось напомнить администраторам сайтов о том, как нужно правильно его настраивать. Хочется верить, что хотя бы часть отечественных сисадминов прочтет эти правила и проникнется.

    Поделиться