Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

3710

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

3710

30.05.2017, 13:54

URL: https://babr24.net/?IDE=272319

Bytes: 7734 / 6789

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Автор текста: Алина Саратова.

Другие статьи в рубрике "Наука и технологии"

Учёные ТГУ: о многофункциональной программе Geant4 и суперколлайдере NICA

Томский государственный университет организует школу для изучения пакета программ Geant4. Такая технология используется в крупных научных проектах в области физики высоких энергий. Помимо этого программу Geant4 используют для моделирования прохождения частиц на большом адронном коллайдере.

Андрей Тихонов

Наука и технологииОбразованиеИнтернет и ИТТомск

607

21.04.2025

Инсайд. Новосибирский академгородок хочет отсоединиться?

Инициативная группа, выступающая за предоставление Советскому району Новосибирска, включающему территорию Академгородка, особого административного статуса, обратилась к губернатору Новосибирской области Андрею Травникову с предложением обсудить возможность преобразования этой зоны в самостоятельное ...

Ярослава Грин

Наука и технологииПолитикаНовосибирск

6680

19.04.2025

Передовые технологии и деловые контакты: в Улан-Баторе проходит выставка Mongolia Mining 2025

В столице Монголии начала работу крупнейшая специализированная выставка страны — Mongolia Mining 2025. С 17 апреля она проходит во Дворце спорта Буян-Ухаа в районе Хан-Уул.

Эрнест Баатырев

Наука и технологииОбществоЭкономика и бизнесМонголия

5330

19.04.2025

Живой фильтр c древних времён: итоги викторины Бабра

На дне Байкала живут уникальные организмы, которые встречаются только в этом озере. Это колонии примитивных многоклеточных животных, которые ведут прикреплённый образ жизни. В озере они обитают на каменистых грунтах. Телеграм-канал «Бурятия. Бабр.

Есения Линней

Наука и технологииЭкологияБайкал Бурятия Иркутск

16339

05.04.2025

3 апреля — День рождения мобильного телефона

Сегодня смартфоны — неотъемлемая часть нашей жизни. Они давно перестали быть просто телефонами и превратились в портативные компьютеры, которые используют для самых разных целей: в работе, учёбе, для развлечений и игр. А ведь ещё совсем недавно сама идея мобильного устройства связи казалась сказкой.

Эля Берковская

Наука и технологииИсторияМир

2833

03.04.2025

Учёные ТГУ рассказали про исследование генов сои для разработки новых сортов

Группа учёных Томского государственного университета обнаружили в сое гены, способные сделать растение более устойчивым к факторам окружающей среды. Это позволит увеличить объёмы выращиваемой сои, которая не будет страдать от засухи или нехватки воды.

Андрей Тихонов

Наука и технологииЭкологияОбразованиеТомск

19168

01.04.2025

Властелин высокогорья: как Монголия защищает снежных барсов

Снежный барс заселяет огромные территории Центральной Азии, но встретить этого хищника – огромное везение. Для сохранения этого вида создаются заповедники и ведётся работа по отслеживанию мест обитания животных.

Есения Линней

Наука и технологииПолитикаМонголия Россия

10625

27.03.2025

Космические амбиции Монголии: ставка на Китай

Монголия активно развивает сотрудничество с Китаем в области космических технологий. В ходе лекции на тему перспектив монголо-китайских отношений, организованной Академией наук Монголии, посол КНР Шэнь Миньцзюань рассказала о достижениях Китая в сфере высоких технологий.

Эрнест Баатырев

Наука и технологииОбществоЭкономика и бизнесМонголия Китай

10441

26.03.2025

Ученые сняли данные с байкальских буйков: что удалось узнать за год наблюдений?

Байкал — озеро, которое никогда не перестает удивлять. Чтобы понять, что происходит в этом гигантском водоеме, исследователи из Лимнологического института СО РАН уже три года используют специальные буйковые станции.

Анна Моль

Наука и технологииГеоИркутск Байкал

3179

25.03.2025

Грант на перекус: почему в Бурятии запатентовали то, что веками ели без бумажки?

Учёные ВСГУТУ разработали способ производства батончиков, в состав которых входит кедровый жмых, обезвоженные ягоды (клюква, облепиха, брусника, чёрная смородина), ягодные порошки, полученные с помощью СВЧ-обработки, а также экстракты лекарственных растений (листья облепихи и чёрной смородины, ...

Виктор Кулагин

Наука и технологииОбразованиеБурятия

3243

24.03.2025

Учёные ТГУ: о новой нейросети и загрязнении рек микропластиком

Учёные Томского государственного университета смогли создать нейросеть, способную диагностировать дефекты снимков 3D-микротомографа, обладающего искусственным интеллектом. Эта математическая модель смогла обойти аналогичные технологии других стран.

Андрей Тихонов

Наука и технологииИнтернет и ИТЭкологияТомск

27743

15.03.2025

Что скрывает река Белая? Исследователи заглянули в её прошлое

Река Белая, протекающая по просторам Бурятии и Иркутской области, всегда была важной частью местной природы. Но её история, как выяснилось, хранит куда больше тайн, чем может показаться на первый взгляд.

Анна Моль

Наука и технологииГеоИркутск Бурятия

4892

12.03.2025

Лица Сибири

Должиков Андрей

Миронов Николай

Ушаков Максим

Творогова Елена

Мальм Александр

Харитонов Арнольд

Доржиев Баир

Вакуленко Григорий

Десятов Валерий

Родионов Владимир