Можно попробовать прямо сейчас и отыскать предка-князя: нейросети Яндекса теперь справляются с расшифровкой дореволюционных рукописей

Команда Яндекса сообщила о новом достижении проекта по развитию нейросетей, распознающих текст. Разработчики научили фирменные нейросети расшифровывать архивные записи со сложной дореволюционной орфографией.

Пользователи могут протестировать технологию в действии в сервисе «Поиск по архивам». В рамках проекта доступно более чем 2,5 миллионам страниц исторических документов XVIII — начала XX веков с текстовой расшифровкой, включая метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения.

Новости СМИ2

Как отмечают разработчики, сервис «Поиск по архивам» пригодится историкам, социологам, демографам, генеалогам и простым пользователям, которые ищут сведения о своей семье.

Новый алгоритм оптического распознавания учитывает особенности почерка и структуру архивных документов, а также справляется с символами и буквами, опознаёт больше не использующимися в русском языке. Нейросеть прошла обучение на сотнях тысяч рукописных строк из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров.

Руководитель «Поиска Яндекса» Елена Бубнова рассказала:

Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах Яндекса.

Новости СМИ2

Техноблог

Можно попробовать прямо сейчас и отыскать предка-князя: нейросети Яндекса теперь справляются с расшифровкой дореволюционных рукописей

Обзор видеокарты Palit GeForce RTX 4060 Dual OC (8 ГБ)

Google, а эти часы тоже нельзя будет отремонтировать? Pixel Watch 2 будут дороже модели первого поколения

Некоторые из наших клиентов не поверили данным, пока не проверили их на практике. Память HBM3 Gen2 уже тестируется Nvidia

Китайская SMIC отстаёт от TSMC и Samsung всего на четыре года, хотя санкции США должны удерживать разрыв в 10 лет

PlayStation 5 и Xbox Series X наконец-то смогут справиться с 4K при 60 к/с? FSR 3 с генерацией кадров появится на консолях

Представлен Changan CS35 Plus Super Edition: две педали, два экрана и 160 л.с. за 11 тыс. долларов

Обзор видеокарты Palit GeForce RTX 4060 Dual OC (8 ГБ)

Google, а эти часы тоже нельзя будет отремонтировать? Pixel Watch 2 будут дороже модели первого поколения

Некоторые из наших клиентов не поверили данным, пока не проверили их на практике. Память HBM3 Gen2 уже тестируется Nvidia

Китайская SMIC отстаёт от TSMC и Samsung всего на четыре года, хотя санкции США должны удерживать разрыв в 10 лет