NaviAI - AI工具导航 | 发现最好用的AI工具

搜索 “语音识别”，找到 21 个工具

OpenGPT 是一个基于 API 构建 ChatGPT 应用的工具平台，支持多语言、即时通讯、语音识别和自然语言处理等能力，并提供可参考的应用示例与开源代码。

AI Voice Detector 是一款音频真实性检测工具，用于识别语音是否由 AI 生成。用户可上传音频文件进行验证，适合涉及证据核查、媒体判断和客户沟通真实性分析的场景。

GPUX.AI 提供面向 GPU 计算任务的资源服务，支持在 Docker 容器中运行各类 GPU 应用，并具备自动扩缩容推理能力。

RunPod 是一个面向 AI 与高性能计算场景的 GPU 云服务，提供按需租用、无服务器 GPU 计算、托管 AI 端点和 Jupyter Notebook 等能力。

AI Depot 是一个聚合多类人工智能工具的平台，涵盖文本分析、语音识别、图像识别和预测分析等方向，帮助用户为不同类型应用寻找合适的机器学习能力。

NeuroSpell 是基于深度学习的拼写与语法自动校正工具，支持 30 多种语言，并提供语音转文本、OCR 错误纠正及可定制术语训练等能力。

Miniapps.ai 是一个聚合多种免费 AI 迷你应用和工具的网站，覆盖健康、社交媒体、SEO 等方向，也支持探索和创建简单的 AI 应用，便于快速上手使用。

Supertranslate 是一款视频字幕工具，可将 100 多种语言的视频自动转写并生成英文字幕，适合需要跨语言传播内容的创作者与团队使用。

Wisecut 是一款在线 AI 视频剪辑工具，利用语音识别自动处理视频内容，可去除停顿、生成字幕，并添加背景音乐，适合快速整理口播、访谈和播客视频。

转录和理解语音的AI模型

讯飞会议是科大讯飞推出的一款智能视频会议软件，以高清晰度、低延迟、多协作为特点。讯飞会议支持屏幕共享、实时多语种字幕、自动生成会议记录，以及AI降噪技术，提供高清稳定的音视频体验。用户可通过PC、手机、智慧屏等多终端接入，享受便捷的远程协作和会议体验。

飞书智能会议纪要和快捷语音识别转文字

你免费的随身翻译

奇妙元是出门问问推出的AI数字人短视频和直播解决方案，借助该数字形象创作及直播平台，用户可以创建自己的数字形象，并通过这些数字形象进行直播活动。奇妙元平台目前拥有超过100款数字人和超过1000款3D数字资产，可以为用户提供丰富的选择。

Cohere是一个提供大语言模型的平台，帮助开发人员和企业构建高性能的AI产品。该平台主要提供AI驱动的搜索文本（多语言嵌入、神经搜索、搜索排名）、分类文本和生成文本等服务，可帮助企业快速部署对话式AI聊天机器人、生成式搜索引擎、文本摘要总结、增强向量检索等。

Label Studio 是 Human Signal（原Heartext）推出的一个开源的数据标注平台，GitHub 上该项目标星近1.4万，可帮助开发人员微调大语言模型、准备训练数据或验证 AI 模型。

ElevenLabs 是AI文字转语音平台，为开发者、创作者和企业提供逼真的语音合成解决方案。核心产品包括文本转语音（支持包括中文在内的 29+ 语言、10,000+ 声音）、AI 配音、语音克隆、音乐生成等功能。

紫东太初是由中科院自动化所和武汉人工智能研究院联合推出的一个全模态大模型，它是在千亿参数多模态大模型“紫东太初1.0”基础上升级打造的2.0版本。紫东太初大模型支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务，具有强大的认知、理解、创作能力，能够带来全新的互动体验。

Deepgram是一个提供先进的AI语音识别和自然语言处理技术的平台，核心产品是强大的语音到文本（Speech-to-Text）和文本到语音（Text-to-Speech）API，让开发者能够快速将语音转录和理解功能集成到他们自己的应用程序和服务中。

SoundView（声动视界）是AI视频本地化工具，支持视频配音和视频翻译。SoundView集成多语种翻译、语音合成、语音识别和大模型技术，简化、加速产品营销视频的创作。SoundView支持100种语言的配音和字幕编辑，让视频制作效率提升10倍，视频翻译成本降低90%。

讯飞同传是科大讯飞推出的专业AI同声传译产品，基于其世界前沿的智能语音和语言技术，提供多场景多语种实时转写翻译、同声传译、直播字幕上屏和会议记录分享等一体化同传服务。