Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

4450

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

4450

30.05.2017, 13:54

URL: https://babr24.net/?IDE=272319

Bytes: 7734 / 6789

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
newsbabr@gmail.com

Автор текста: Алина Саратова.

Другие статьи в рубрике "Наука и технологии"

Инсайд. Приземлившаяся «тарелка» сибирской науки

Губернатор Новосибирской области Андрей Травников совместно с Министром науки и высшего образования России Валерием Фальковым оценили ход строительно-монтажных и пусконаладочных работ на ЦКП «Сибирский кольцевой источник фотонов», а также монтаж научного оборудования на экспериментальных станциях.

Ярослава Грин

Наука и технологииНовосибирск

4780

25.05.2026

РепринтЪ. Как грозопеленгаторы разоблачают черных лесорубов и сохраняют леса

Пять лет назад Бабр писал: Ранее Бабр рассказывал о разработанном иркутскими учеными грозопеленгаторе, который планируют установить в Бурятии. Позднее стало известно, что еще в 2019 году три подобных устройства предлагали приобрести для Иркутской области.

Есения Линней

Наука и технологииЭкологияРоссия Иркутск Бурятия

13088

17.05.2026

Слёзы счастья и грусти одинаковые по составу, но разные по ощущениям

Люди считали, что слёзы счастья и слёзы горя различаются по составу. Однако учёный из ТПУ сообщил обратное. Несмотря на то что слёзы являются достаточно сложной биологической жидкостью, эмоциональная составляющая на её состав не влияет. Всему виной человеческие ощущения.

Андрей Тихонов

Наука и технологииЗдоровьеТомск

4009

15.05.2026

Учёные ТГУ: новый сенсор для эффективного лечения онкологии

Учёным ТГУ удалось создать сенсоры, способные увеличивать эффективность лучевой терапии для онкобольных. Клинические испытания пройдены, а действенность сенсоров доказана. В ближайшее время изобретение применят в экспериментальной установке ионной лучевой терапии.

Андрей Тихонов

Наука и технологииЗдоровьеТомск

4293

11.05.2026

Солнце как ресурс: Монголия делает ставку на новую энергетику

Монгольское руководство пытается постепенно сместить акценты в энергетике. В 2026 году сразу в пяти аймаках должны заработать солнечные электростанции. В первую очередь обсуждаются проекты в Орхоне и Уверхангае, а также в Хэнтийском, Дундговьском и Говьсумбэрском аймаках.

Эрнест Баатырев

Наука и технологииЭкологияЭкономикаМонголия

16199

06.05.2026

Гигантское зеркало Байкала: итоги викторины Бабра

Береговая линия Байкала очень разнообразна: здесь есть и песчаные пляжи с плавными изгибами, и скалистые выступы, о которые бьются волны, и крутые берега, поросшие тайгой. Разные участки берега называют мысом, заливом, губой, бухтой или сором. Телеграм-канал «Бурятия. Бабр.

Есения Линней

Наука и технологииЭкологияБайкал Бурятия Иркутск

20801

02.05.2026

Тайна горы Сайджрах: о следах динозавров, найденных в монгольских степях

Палеонтологи Монголии обнаружили следы динозавров, о которых наука знала, но не могла найти более полувека. Они сохранились там, где когда-то было озеро. Находка поменяла представление о том, где и как жили доисторические животные. Бабр рассказывает об удивительном открытии.

Есения Линней

Наука и технологииИсторияМонголия

4831

26.04.2026

Не только мусор. Байкал начали травить лекарствами

История с загрязнением Байкала обычно звучит одинаково: туристы, мусор, сточные воды, перегруженные берега. Но последние данные ученых добавляют к этому списку новую и куда менее очевидную проблему — фармацевтическое загрязнение. Причём уже не только у берега, а на глубине.

Анна Моль

Наука и технологииЭкологияИркутск Байкал

25117

16.04.2026

Байкал глазами ссыльного: итоги викторины Бабра

Этот зоолог, сосланный в Сибирь после восстания 1863-1864 годов, жил в посёлке Култук и провёл там фундаментальные исследования фауны Байкала. Учёный впервые описал живородящие свойства голомянки, дал научное описание бычка‑желтокрылки и открыл более 100 новых видов гаммарид.

Есения Линней

Наука и технологииИсторияЭкологияБайкал Бурятия Иркутск

24732

14.04.2026

Учёные ТГУ: защита краснокнижных птиц и отечественный метилпарабен

Учёные ТГУ находятся в процессе разработки подхода к охране птиц из Красной книги. В период с 2002 года по 2025 год численность трёх видов таких птиц сильно снизилась, поэтому учёные поставили перед собой задачу сохранить их.

Андрей Тихонов

Наука и технологииТомск

7838

07.04.2026

Учёные ТГУ: новый эффективный катализатор и 24 запатентованных сорта декоративных растений

Учёным-химикам из Томского госуниверситета удалось разработать новую улучшенную версию катализатора, способствующего получению молочной кислоты из глицерина. Этот ускоритель оказался в два раза эффективнее предыдущей версии.

Андрей Тихонов

Наука и технологииЭкологияТомск

30099

27.03.2026

РУСАЛ меняет технологию производства алюминия

Компания РУСАЛ начала программу замены технологии производства алюминия ЭкоСодерберга на своих заводах. Завершены промышленные испытания первого в мире электролизера с инертными анодами.

Ярослава Грин

Наука и технологииЭкономикаИркутск

14883

23.03.2026

Лица Сибири

Мамаджанов Константин

Крастелев Роман

Потанин Владимир

Говорушкина Наталия

Алешина Надежда

Косолапов Марк

Салмин Владимир

Панченко Юлия

Огородников Петр

Дворниченко Виктория