31.01.2024 10:07
    Поделиться

    Москвичи обратились к сервису "Поиск по архивам" более 20 млн раз за год

    Год назад в Москве запустили портал поиска по архивным рукописным документам - "Поиск по архивам". Он был создан Главархивом и Яндексом как дополнение сервиса "Моя семья", где хранятся оцифорванные метрические книги. Именно на представленных в нем текстах нейросеть обучалась расшифровывать устаревшие символы и рукописи.
    РГ


    На данный момент в базу "Поиска по архивам" загружено более 5,4 миллионов страниц исторических материалов из Главархива Москвы - это больше половины всех документов сервиса. За год с момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз. Об этом сообщила заммэра Москвы по вопросам социального развития Анастасия Ракова.

    "На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи. Семья для человека - это и предыдущие поколения, и будущие представители рода. Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще. Так, несколько лет назад мы открыли онлайн-сервис "Моя семья" и разместили в нем оцифрованные метрические книги - документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса "Моя семья" нейросеть "Поиска по архивам" училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов", - рассказала Анастасия Ракова.

    Сервис "Поиске по архивам" помогает историкам, социологам, демографам и журналистам находить информацию об исторических событиях и личностях, а обычным людям - больше узнать о своих предках. Работать с архивными документами так же легко, как с привычным поиском - достаточно ввести слово, упоминание которого нужно найти, в поисковую строку.

    Фото: РГ

    Сейчас в "Поиске по архивам" есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII - начала XX веков: в сумме это более 10 миллионов страниц, или 492 миллионов строк. В "Поиске по архивам" хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в России до 1917 года.

    Кроме того, в сервисе собраны 3,6 миллионов оцифрованных страниц периодических изданий, таких как "Советский спорт", "Вечерняя Москва" и епархиальные ведомости.

    Технология расшифровки в "Поиске по архивам" основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на низкоплотной бумаге.

    "Поиск по архивам" - запущенный в начале 2023 года сервис Яндекса, который помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков. В базе сервиса представлено более 10 миллионов страниц исторических документов из архивов Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей, а также нескольких муниципальных архивов. Кроме того, в сервисе можно искать информацию в архивах епархиальных ведомостей, "Советского спорта", "Вечерней Москвы".

    Поделиться