专栏名称: GitHubStore

分享有意思的开源项目

智能会议记录与分析工具Offmute

GitHubStore · 公众号 · · 2024-11-10 10:53

正文

项目简介

智能会议记录与分析工具，能够将音视频内容转换为文本，同时识别不同发言人，生成结构化会议报告

特点

🎯 转录和分类：将音频/视频内容转换为文本，同时识别不同的说话者
🎭 智能说话人识别：尽可能通过姓名和角色识别说话人
📊 会议报告：生成包含要点、行动项目和参与者资料的结构化报告
🎬 视频分析：提取并分析视频会议中的视觉信息，了解演示何时开始播放
⚡ 多个处理层：从预算友好型到高级处理选项
🔄 稳健的处理：通过自动分块和适当的清理来处理长时间的会议
📁 灵活的输出：带有可选中间输出的 Markdown 格式的转录本和报告

🏃 快速入门

# Set your Gemini API keyexport GEMINI_API_KEY=your_key_here
# Run on a meeting recordingnpx offmute path/to/your/meeting.mp4

📦 安装

作为 CLI 工具

npx offmute <Meeting_Location> <options>

作为一个包

npm install offmute

如果有 bunx 或 bun ，效果会更快！

💻 用法

命令行界面

npx offmute  [options]

选项：

-t, --tier ：处理层（第一层、业务层、经济层、预算层）[默认值：“业务”]
-a, --all : 保存所有中间输出
-sc, --screenshot-count ：要提取的屏幕截图数量[默认值：4]
-ac, --audio-chunk-minutes ：音频块的长度（以分钟为单位）[默认值：10]
-r, --report : 生成结构化会议报告
-rd, --reports-dir ：报告输出的自定义目录

处理层

First Tier （ first ）：适用于所有操作的 Pro 模型
业务层（ business ）：Pro 用于描述，Flash 用于转录
Economy Tier （ economy ）：适用于所有操作的 Flash 模型
预算层 budget 用于描述的 Flash，用于转录的 8B

作为模块

import {  generateDescription,  generateTranscription,  generateReport,} from "offmute";
// Generate description and transcriptionconst description = await generateDescription(inputFile, {  screenshotModel: "gemini-1.5-pro",  audioModel: "gemini-1.5-pro",  mergeModel: "gemini-1.5-pro",  showProgress: true,});
const transcription = await generateTranscription(inputFile, description, {  transcriptionModel: "gemini-1.5-pro",  showProgress: true,});
// Generate a structured reportconst report = await generateReport(  description.finalDescription,  transcription.chunkTranscriptions.join("\n\n"),  {    model: "gemini-1.5-pro",    reportName: "meeting_summary",    showProgress: true,  });

🔧 高级用法

中间输出

当使用 -a 标志运行时，offmute 会保存中间处理文件：

input_file_intermediates/├── screenshots/          # Video screenshots├── audio/               # Processed audio chunks├── transcription/       # Per-chunk transcriptions└── report/             # Report generation data

定制块尺寸

调整不同内容类型的处理：

# Longer chunks for presentationsoffmute presentation.mp4 -ac 20
# More screenshots for visual-heavy contentoffmute workshop.mp4 -sc 8

⚙️ 它是如何运作的

offmute 使用多级管道：

内容分析

提取视频关键时刻截图
将音频分成可处理的片段
生成视觉和音频内容的初始描述

转录和二值化

通过上下文感知处理音频块
识别并标记说话者
保持跨块的对话流

报告生成（Spreadfill）

请到「今天看啥」查看全文

推荐文章

刀法研究所 · “美国足力健”，反向激起中国年轻人的购买欲

2 天前

玩物志 · 曾在风口浪尖的明星 AI 硬件，将在下个月成为电子垃圾

3 天前

刀法研究所 · 老铺黄金2024年净利润同比大涨；南京德基广场或成全球单体商场销冠；B站2024年营收增长19%... | 刀法品牌热讯

3 天前

刀法研究所 · 人群越小生意越大？悦鲜活靠什么1年卖出35亿？

3 天前

华人生活网 · 伊州地毯清洁工4.99美元淘的盘子，竟是中国古董，身价涨1200倍

3 天前

华人生活网 · 伊州地毯清洁工4.99美元淘的盘子，竟是中国古董，身价涨1200倍

3 天前

颇可网 · 极限线上分享|航拍老司机Captain 新西兰首炸经验分享

8 年前

品玩 · 淘宝做了一部良心剧，就是为了卖给你6样东西

7 年前

济宁7890后 · 夫妻午. 夜.行. 房，妻子哼.唧.两声就停了...只因......

7 年前

电影票房 · 今日票房榜|大盘收1.83亿#速度与激情8#近22亿 #蓝精灵#3000万 #傲娇与偏见#1980万

7 年前

科尔沁都市报 · 夫妻离婚，男的说：你不过是车子房子换来陪睡的！女的却说..

7 年前

智能会议记录与分析工具Offmute

正文

项目简介 (adsbygoogle = window.adsbygoogle || []).push({});

特点

🏃 快速入门

📦 安装

作为 CLI 工具

作为一个包

💻 用法

命令行界面

处理层

作为模块

🔧 高级用法

中间输出

定制块尺寸

⚙️ 它是如何运作的

请到「今天看啥」查看全文

项目简介