Артур Скальский

© Би-Би-Си

ИнтернетМир

2881

19.08.2008, 15:04

Программы против спама помогут "отцифровать" книги

Компьютерные программы, защищающие от спама, сделали возможным с большей точностью перевести в электронную форму старинные книги и другие письменные источники.

Получить доступ ко многим сайтам можно лишь зарегистрировавшись на них, предварительно напечатав в специальном окошке набор символов, представленных в виде причудливой картинки. Владельцы интернет-ресурсов идут на это для противодействия натиску спам-сообщений.

Сейчас многие сайты вместо невнятной абракадабры используют для этих целей тексты из старинных письменных источников, которые были отсканированы и но не распознаны.

Куски текста, которые программы распознавания текста не осилили, как раз и предлагается расшифровать интернет-пользователям.

С учетом того, что около 100 млн. пользователей в день доказывают таким образом, что они не роботы, получается довольно внушительная армия потенциальных дешифровальщиков.

Объем нечитаемых слов в некоторых старинных документах может доходить до 20% из-за пожелтевшей бумаги или выцветших чернил.

Предельная точность

Специалисты из американского университета Карнеги-Меллон разработали систему под названием Recaptcha, которая собирает фрагменты сканированного текста, не поддавшиеся компьютерной программе, и затем рассылает их сайтам, которые подписаны на эту услугу.

Вместе с буквами, которые компьютер не узнал после сканирования, высылается и слово, уже внесенное в систему. Правильно распознав второе слово, пользователь получает доступ к сайту, а расшифровка первого слова дополняет базу данных, после того, как будет получено несколько подтверждающих ответов.

В материале, опубликованном в журнале Science, говорится, что такой подход позволяет добиться почти стопроцентной точности, что превосходит требования архивариусов.

В настоящее время около 40 тыс. сайтов предлагают своим пользователям решить такие простенькие задачки, и получают в день около 4 млн. ответов.

В прошлом году таким образом удалось расшифровать 440 млн. слов и перевести в цифровую форму весь архив газеты New York Times с 1908 года.

Артур Скальский

© Би-Би-Си

ИнтернетМир

2881

19.08.2008, 15:04

URL: https://babr24.net/?ADE=47073

Bytes: 2046 / 2039

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Последние новости

23.11 14:51
Власти Хакасии ожидают падение восточного экспорта угля до пяти миллионов тонн

23.11 14:50
Экспертиза одобрила проект новой лестницы на Караульной горе в Красноярске

22.11 23:10
В Бурятии отчитались о строительстве новой школы в селе Оймур

22.11 22:58
В Бурятии обнаружили очаги сибирского шелкопряда площадью почти 4,2 тысячи гектаров

22.11 22:46
В Новосибирской области на бывшего главу Каргатского района возбудили уголовное дело

22.11 22:33
В Новосибирской области двое несовершеннолетних получили условный срок за мошенничество

22.11 21:38
Незаконную реконструкцию пресекли в центре Улан-Удэ

22.11 21:27
6,5 миллиона рублей похитили интернет-мошенники у жителей Бурятии

22.11 16:53
В нацпарке «Столбы» восстановили дорогу, разрушенную сентябрьскими ливнями

22.11 16:41
В Ветлужанке ищут подрядчика для строительства новой школы за 2,6 миллиарда рублей

Лица Сибири

Ильичев Виктор

Доржиев Валерий

Толоконский Виктор

Чернышев Андрей

Екимовский Олег

Таевский Дмитрий

Мадасов Игорь

Ширяев Вячеслав

Космылин Адрей

Панченко Сергей