Не просто транскрибатор в личке — бот для командных чатов. Добавляете в рабочий чат, и он автоматически расшифровывает все голосовые в текст. Никто ничего не пересылает — текст появляется сам.
Собственный продукт
Python + Speech API
Личка + группы
Работает
Кейс за 60 секунд
Клиент и боль
Команды, где часть людей общается голосовыми, а часть физически не может слушать: в метро, на совещании, на шумном складе. В личке транскрибаторов хватает, но в групповом чате каждый должен пересылать сообщения себе.
Что построили
Telegram-бот в двух режимах: в личке работает как классический транскрибатор, в групповом чате подключается один раз и автоматически расшифровывает все входящие голосовые для всех участников — ответом (reply) к оригинальному сообщению, чтобы было видно, к какому голосовому относится текст.
Что это дало клиенту
Менее 5 секунд на расшифровку минутного голосового. Точность на русском выше 95%. Ноль действий от участников в группе: бот добавили — всё работает само.
Кому подойдёт
Командам с рабочими чатами в Telegram — продажи на выезде, поддержка, стройка, логистика, креатив.
< 5 сек
среднее время расшифровки
2 режима
личка + групповые чаты
0 действий
в групповом чате — всё автоматически
95%+
точность распознавания русской речи
Голосовые сообщения удобны тому, кто их отправляет. Но для получателя это всегда потеря времени. Особенно в рабочих чатах, где за день приходит 20–30 голосовых от разных коллег.
Средняя скорость речи — 120 слов в минуту. Скорость чтения текста — 250 слов в минуту. Одноминутное голосовое — это 25 секунд чтения текстом. Умножьте на 30 голосовых в день.
Коллега неделю назад голосом продиктовал адрес склада, номер счёта или ТЗ. Попробуйте найти это сообщение среди сотен других. Текст ищется за секунду — голосовое не ищется никак.
Когда в чат приходит голосовое — нужно воткнуть наушник, перемотать тишину в начале, дослушать. Коллеги рядом ждут. В тексте — глазами пробежал за 5 секунд.
Коллега в метро, на шумном складе, на созвоне — физически не может слушать. Человек с нарушением слуха не может воспринять голосовое. Текст доступен всем и всегда.
Большинство ботов-транскрибаторов работают только в личке: пересылаешь голосовое — получаешь текст. Это неудобно для команд: каждый должен сам пересылать каждое голосовое.
Наш бот работает в двух режимах. В личке — как обычный транскрибатор. Но главная фишка — режим группового чата. Добавляете бота в рабочий чат, и он автоматически расшифровывает все входящие голосовые сообщения. Никто ничего не пересылает — текст появляется сам.
Пользователь пересылает голосовое сообщение боту в личку — или записывает голосовое прямо в диалоге с ботом. Через несколько секунд бот отвечает текстовой расшифровкой. Без регистрации, без настроек — отправил и получил.
Бот добавляется в рабочий чат команды. Как только кто-то отправляет голосовое сообщение, бот автоматически расшифровывает его и отправляет текст в ответ. Никому не нужно пересылать — всё происходит само.
Бот использует API распознавания речи для конвертации аудио в текст. Поддерживает русский язык, работает с голосовыми сообщениями и аудиофайлами Telegram. Точность — выше 95% для чёткой речи.
Среднее время расшифровки — менее 5 секунд для минутного голосового. Бот обрабатывает аудио асинхронно и отправляет результат реплаем к исходному сообщению, чтобы было понятно, к чему относится текст.
Слушаешь голосовое 40 секунд
Читаешь текст за 19 секунд
Не можешь слушать в шумном месте
Читаешь в любых условиях
Невозможно найти информацию в голосовом
Ctrl+F по тексту — нашёл за секунду
Переслушиваешь, чтобы записать цифры
Копируешь цифры из текста
Ждёшь, пока коллега сможет слушать
Коллега читает мгновенно
Информация теряется между голосовых
Всё зафиксировано текстом, ищется
Голосовые сообщения кажутся бесплатными. На самом деле каждое голосовое — это оплаченное время сотрудника, потраченное на прослушивание вместо работы.
| Метрика | Без бота | С ботом |
|---|---|---|
| Голосовых в день на 1 человека | 5–10 входящих | Столько же, но читаются текстом |
| Время на голосовые в день | 5–7 минут на прослушивание | 2–3 минуты на чтение расшифровок |
| Экономия на 1 человека | — | ~3–5 минут в день |
| Команда из 10 человек в месяц | ~20 часов на прослушивание | ~8 часов на чтение |
| Экономия команды в месяц | — | ~12 человеко-часов |
Бот полезен везде, где люди отправляют голосовые: от строительных бригад до маркетинговых агентств. Вот конкретные сценарии, где расшифровка голосовых экономит время и деньги.
Менеджеры на выезде отправляют голосом: «Был у клиента, он хочет 200 штук по 1 500, доставка до среды». Руководитель не может слушать 15 голосовых подряд между встречами. Бот расшифровывает — руководитель за минуту видит всю картину по отделу.
Клиент отправляет голосовое с описанием проблемы. Оператор в опенспейсе не может слушать без наушников. Бот расшифровывает — оператор читает, сразу копирует ключевые данные в тикет. Быстрее, точнее, без переспрашивания.
Прораб на объекте диктует голосом: размеры, марку бетона, номер участка. Руки заняты, писать не может. Бот расшифровывает — офис получает текст, вносит в документацию. Ничего не теряется.
Водитель за рулём надиктовывает: «Пробка на МКАД, буду через час, клиент просил перезвонить». Диспетчер видит текстом мгновенно, не тратит время на прослушивание — сразу перезванивает клиенту.
Арт-директор наговаривает правки: «Логотип левее, шрифт потоньше, добавь тень снизу». Дизайнер получает текстом — может сверяться построчно при работе, не перематывая голосовое.
Мама присылает 3-минутное голосовое. Друг надиктовывает адрес ресторана. Ты в метро без наушников. Пересылаешь боту — читаешь текстом за 20 секунд.
Бот использует облачное API распознавания речи. Поддержка русского языка из коробки, высокая точность даже при фоновом шуме, акцентах и быстрой речи.
Голосовые обрабатываются асинхронно — бот принимает сообщение, ставит в очередь, обрабатывает и отвечает. Это позволяет обрабатывать десятки голосовых одновременно без задержек.
Расшифровка отправляется реплаем к оригинальному голосовому. В групповом чате сразу видно, к какому сообщению относится текст — нет путаницы.
Бот работает с голосовыми сообщениями Telegram (.ogg), аудиофайлами (.mp3, .wav, .m4a) и видеосообщениями-кружочками. Всё, что содержит голос — расшифровывается.
Аудио обрабатывается и удаляется. Бот не хранит голосовые сообщения и расшифровки на своих серверах после отправки результата. Данные не используются для обучения моделей.
Бот развёрнут на VPS с автоматическим перезапуском. Архитектура позволяет горизонтально масштабировать — при росте нагрузки добавляются воркеры без изменения кода.
Бот-транскрибатор в личке — это удобство для одного человека. Он пересылает голосовое, получает текст. Но в команде из 10 человек это означает: каждый из 10 должен отдельно пересылать каждое голосовое. Если в чате 30 голосовых в день — это 300 операций пересылки.
Бот в групповом чате решает проблему на корню. Одна настройка — добавили бота в чат — и все голосовые расшифровываются автоматически для всех участников. Не нужно ничего пересылать, не нужно помнить про бота. Человек отправил голосовое — через 5 секунд под ним появляется текст.
Это меняет культуру общения в команде. Те, кому удобнее говорить голосом — продолжают говорить. Те, кому удобнее читать — читают. Никто никого не просит «напиши текстом». Все довольны.
А ещё текстовые расшифровки индексируются поиском Telegram. Через месяц можно найти любое сообщение — даже если оно изначально было голосовым. Для команд, которые работают удалённо, это как персональный секретарь, который записывает все устные договорённости.
2 режима
личка + групповые чаты
< 5 сек
расшифровка голосового
0 действий
в групповом чате — всё само
Бот работает стабильно, расшифровывает голосовые за секунды и не требует внимания после настройки. Добавляется в чат за 30 секунд — и начинает экономить время всей команде.
Главное преимущество — не технология распознавания (она у всех одинаковая), а сценарий использования. Бот-транскрибатор в групповом чате — это инфраструктура команды, а не персональный инструмент. Одна установка решает проблему для всех.
Расшифровка голосовых в командных чатах, интеграция с вашими процессами — расскажите о задаче, оценим сроки
Написать в Telegram