发布于 2026-01-06 0 阅读
0

VoiceCue 隆重推出 - 像 DJ 一样查找情感、标签、实体和动作 🧙✨ 由 Mux 呈现的 DEV 全球展示挑战赛:展示你的项目!

VoiceCue 隆重登场 - 像 DJ 一样轻松找到情感、标签、实体和动作🧙✨

由 Mux 赞助的 DEV 全球展示挑战赛:展示你的项目!

我的提交内容概述

我们很多人都遇到过语音录音分析这项繁琐的任务,需要听完整段音频来找出最重要的部分。

问题

手动处理音频效率极低。仅仅从头到尾听一遍往往是不够的,因为需要暂停和重放音频的某些部分,所以所需时间可能会翻倍甚至三倍。

从三月中旬到四月中旬,我开发了VoiceCue,这是一款可以生成提示时间码的应用程序,只需点击一下,即可找到语音录音中的所有重要部分,例如情感、实体和标签。

本文将对此进行评述。

预览

这个项目是专门为了参加DEVDeepgram黑客马拉松而开发的。这是一次非常棒的经历,参与其中激励了我,也让我开发出了一个希望能对其他人也有帮助的产品。

提交类别

这款应用的灵感源自世界知名的音乐行业DJ。演出前,他们会为即将播放的音频曲目设置提示点,标记出过渡段、高潮部分、结尾等等。这样,如果需要,他们就能快速找到特定的部分。

借助Deepgram API,我得以实现自己的线索系统,并将其与语音录音分析相结合。这些线索涵盖正面和负面情绪、常用词汇、多种实体、动作以及自定义搜索查询。

我从未见过基于人工智能的语音录制提示工具,所以我认为“奇葩通配符”这个类别非常适合它。

代码链接:github.com/madzadev/voice-cue 🧑‍💻

应用已部署:cue.madza.dev 🎉


它是如何运作的?

音频提示本质上是一种快捷方式,可让您跳转到音频中预先设定的位置。

波形

该应用程序的工作流程非常简单,只需上传您的录音,选择要执行的分析类型,然后点击列表中生成的提示,即可立即导航到录音中的确切位置。

概述和统计数据

概览统计信息提供了录音的总体概要。

统计数据

分析内容包括:语音记录中的字符总数、句子总数和单词总数,已识别的情感线索总数及其累积语气得分,以及已识别的标签总数、命名实体总数、动作总数和说话人总数。

互动式文字稿

生成的文本是交互式的,会根据录音内容高亮显示相应的词语。这项功能不仅方便用户追踪当前位置,还能提高听力障碍人士的阅读体验。

互动式文字稿

此外,用户可以点击转录文本中的任何单词,音频进度将自动设置为该单词在录音中的位置。

音频波形图使用户能够直观地感知语音的动态变化并识别静音部分。播放时,用户可以在音频控制和手动调整波形图上的进度标记之间切换。

情感分析

情感分析会检查词语的正面含义和负面含义。

选择情感倾向后,系统会返回情感词汇列表。列表头会显示所选情感倾向以及该情感倾向的词汇在录音中出现的次数。

情感分析

列表中的每个标签都显示单词、时间码及其情感等级,从 -4(负面)到 +4(正面)。

两者都有多种实际应用场景。例如,用户可以查看正面评价来整理个人网站的推荐人名单。或者,他/她可以查看负面评价来获取改进建议。

标签云

标签云会返回语音录音中最常用的词语。

录音中出现次数越多,云端标签的字体就越大。此外,每个标签都使用不同的配色方案,以便于区分。

标签云

选中标签后,列表标题会显示该标签在录音中出现的次数。对于单个提示,则会显示其出现顺序以及时间码。

通过查看词云,可以轻松了解对话的主要主题。例如,如果有人想了解哪些产品或服务被提及的次数最多,这将非常有用。

命名实体

命名实体分析可以根据词语分类找到线索。

目前支持的命名实体有:人、地点、组织、货币、单位和日期。

命名实体

选中某个命名实体后,录音中该实体出现的总次数会显示在标题栏中。每个生成的提示信息都代表该实体的特定词语、其出现顺序以及时间码。

命名实体非常有用。例如,公司可以检查是否存在“人员”实体,以便快速生成录音中提及董事会成员的时间码。或者搜索“资金”实体,以便快速跳转到提及公司预算的位置。

行动

动作分析功能会返回动词,并将其分为过去式、现在式和将来式。目前支持的类别包括过去式、不定式、系词、情态动词和动名词。

行动

与命名实体类似,一旦选中某个动作,它就会显示在列表标题中,并附有该动作在录音中出现的总次数。每个生成的提示都代表该动作的具体词语、出现顺序以及时间码。

由于可以按时态进行分类,因此如果有人想查找有关已完成的里程碑、当前流程或未来计划的任务等主题的信息,就可以实际使用行动线索。

自定义搜索

如果您通过之前的任何分析方法都无法找到您要查找的线索,还可以使用自定义搜索功能,让您搜索自定义词语。

自定义搜索

用户至少需要输入 3 个字符才能生成提示列表。如果搜索查询返回多个提示,则所有提示将依次显示在下方,并包含查询词、其序列号和时间码。

响应能力

在日常生活中,我们通常使用手机进行采访、录制会议或活动。因此,使应用程序能够完全响应不同的屏幕宽度是主要优先事项之一。

手机屏幕

由于所有功能在较小的屏幕上也得到支持,因此无论何时何地,只要您有设备在身边,即可使用该应用程序。

功能列表:

  1. 语音识别 - 基于Deepgram API

  2. 总体统计 - 语音录制概览

  3. 情感分析——正面和负面词语检测

  4. 词云生成 - 最常用词分类

  5. 实体名称识别——例如人名、地名等类别

  6. 活动跟踪 - 查找过去、现在或未来的操作

  7. 交互式文字稿 - 查看进度或点击控制进度

  8. 说话人检测 - 录音中说话人的总数

  9. 提示词用法——简短文本示例,以便更好地理解上下文

  10. 自定义搜索 - 扩展了查询线索的功能

  11. 波形预览——观察语音动态,识别静音部分

  12. 音频控制——播放、暂停、快进和快退

  13. 支持拖放功能 - 将音频文件拖放到文件选择区域

  14. 上传 MP3 文件——最常用的音频格式

  15. 进度加载器 - 改进了成绩单加载的用户体验

  16. 完全响应式设计——在手机和平​​板电脑上都能完美运行

  17. 色彩丰富的用户界面——方便交互和单词高亮显示

技术栈

NextJS - React 应用框架

Deepgram——用于基于人工智能的语音识别

妥协情感——用于文本处理

react-tagcloud - 用于生成词云

react-tabs - 用于导航面板

react-drag-drop-files - 用于拖放支持

wavesurfer.js - 用于生成音频波形

GitHub——用于托管代码

Vercel——部署该项目

ESLintprettier——用于代码检查和格式化

Namecheap - 用于自定义子域名

结论

我要感谢Forem提供了一个绝佳的平台,让我能够学习、分享发现并与优秀的人交流。多年来,每天访问DEV已经成为我的习惯,我已经发表了 300 多篇文章。

我很高兴发现了Deepgram,它是本次黑客马拉松的联合主办方,并提供了 API 来构建各种强大的应用。从现在开始,我就拥有了一个非常实用的工具,在处理语音识别项目时,我就可以立即上手使用了。

语音是一种沟通工具,每秒钟都有大量宝贵信息通过它传递。Deepgram 强大的 API迈向高效工作而非埋头苦干的重要一步,这将成为未来战胜竞争对手的关键技能。


建筑项目一直是我的热情所在,帮助和激励他人让我感到无比快乐。如有任何疑问,欢迎随时联系!

请在TwitterLinkedInGitHub上关注我

请访问我的作品集查看更多类似项目。

文章来源:https://dev.to/madza/introducing-voicecue-find-sentiments-tags-entities-actions-like-a-dj-4kjk