# 🎙️ 小树智能录音卡 · 完整项目方案

> 参考产品：DingTalk A1（钉钉套客A1）  
> 版本：v1.0 | 日期：2026-04-30  
> 作者：小树集团 · 研发部

---

## 目录

1. [产品是什么](#1-产品是什么)
2. [硬件怎么做](#2-硬件怎么做)
3. [软件怎么做](#3-软件怎么做)
4. [通信方案](#4-通信方案)
5. [云端AI服务](#5-云端ai服务)
6. [成本估算](#6-成本估算)
7. [开发路线图](#7-开发路线图)
8. [常见问题](#8-常见问题)

---

## 1. 产品是什么

### 1.1 一句话说清楚

**小树智能录音卡**是一张名片大小的"录音卡片"，按下按钮就能录音，然后通过手机APP自动把录音转成文字、翻译成外语、用AI总结出要点。

就像你随身带了一个**能听懂人话的秘书**。

### 1.2 你能用它做什么

| 场景 | 怎么做 | 得到什么 |
|------|--------|----------|
| 🏢 开会 | 放桌上按一下 | 会议记录+待办事项 |
| 📚 上课/讲座 | 放在讲台附近 | 完整笔记+重点总结 |
| 💡 走廊聊天 | 随手按一下 | 灵感不会被忘掉 |
| 🌐 外语会议 | 自动识别翻译 | 中英对照文本 |
| 🎤 采访录音 | 打开录音模式 | 逐字稿+摘要 |

### 1.3 和传统录音笔有什么不同

| 功能 | 传统录音笔 | 小树智能录音卡 |
|------|-----------|---------------|
| 录音 | ✅ 有 | ✅ 有，更清晰 |
| 转文字 | ❌ 没有 | ✅ AI自动转写 |
| AI总结 | ❌ 没有 | ✅ 自动提炼要点 |
| 实时翻译 | ❌ 没有 | ✅ 支持多语种 |
| 厚度 | 1-2cm | **3.8mm 超薄** |
| 重量 | 60-100g | **约40g** |
| 操作 | 复杂菜单 | **一键录音** |

---

## 2. 硬件怎么做

> 💡 这一节给不懂硬件的朋友看，我会尽量用大白话讲。

### 2.1 整体结构

一个智能录音卡 = **外壳** + **电路板** + **电池** + **麦克风阵列** + **无线芯片**

```
┌──────────────────────────┐
│  🎙️  🎙️  🎙️              │  ← 顶部三个麦克风孔
│                          │
│  ┌──────────────────┐    │
│  │   电路板 (PCB)    │    │
│  │  ┌────┐ ┌────┐   │    │
│  │  │芯片│ │蓝牙│   │    │
│  │  └────┘ └────┘   │    │
│  │  ┌────┐ ┌────┐   │    │
│  │  │内存│ │电池│   │    │
│  │  └────┘ └────┘   │    │
│  └──────────────────┘    │
│                          │
│  [⚡按钮]  [LED指示灯]    │
│                          │
│  [Type-C 充电口]         │
└──────────────────────────┘
```

### 2.2 核心元器件清单

#### 🧠 主控芯片（大脑）

**选择方案：SoC 集成方案**

推荐芯片型号：**Allwinner R528** 或 **Rockchip RK3308**

- 这是一颗**低功耗ARM处理器**，专门给智能音箱、录音设备用的
- 内置音频处理单元，能直接处理麦克风的音频信号
- 功耗极低，待机时几乎不耗电
- 价格：约 ¥25-35/片（批量采购）

也可选择 **ESP32-S3**（乐鑫科技）：
- 内置WiFi+蓝牙，功能集成度高
- 价格更低：约 ¥15-25/片
- 缺点是算力比上面两款弱一些

#### 🎤 麦克风（耳朵）

**方案：6麦克风环形阵列**

- 使用 **MEMS 硅麦克风**（就是手机里用的那种小方块麦克风）
- 推荐型号：**Knowles SPH0645LM4H** 或国产替代 **TDK ICS-43434**
- 6个麦克风呈圆形排列，配合算法实现：
  - **360°全方位拾音** — 不管你在哪个方向说话都听得清
  - **降噪** — 能过滤掉空调、风扇、马路噪音
  - **远场拾音** — 8米以内正常音量说话都能录清楚
- 价格：约 ¥2-4/个 × 6 = ¥12-24

#### 🗄️ 存储器（笔记本）

- **64GB eMMC 闪存芯片**
  - 可以存约 **400小时** 的录音（按128kbps计算）
  - 支持录音时同时写入，不会丢数据
- 价格：约 ¥30-40/片

#### 🔋 电池（能量来源）

- **500mAh 聚合物锂电池**
  - 大小：约 50×30×3mm（和名片差不多大，3mm厚）
  - 录音续航：约 10-12小时
  - 待机续航：约 60天
  - 充电：Type-C 口，约1.5小时充满
- 价格：约 ¥15-20/块

#### 📡 无线通信模块

**方案1：蓝牙 5.3 + WiFi 4/5 双模芯片**

- 推荐：**ESP32-C6**（乐鑫）
  - 支持蓝牙 5.3（低功耗BLE）
  - 支持 WiFi 6（可选）
  - 实时传输录音数据到手机
- 价格：约 ¥10-15/片

**方案2：纯蓝牙方案（更低成本）**

- 推荐：**nRF5340**（Nordic）
  - 超低功耗蓝牙 5.3
  - 适合只做蓝牙传输的版本
  - 但传输速度较慢（约20KB/s），大文件传得慢
- 价格：约 ¥8-12/片

#### ⚡ 电源管理芯片

- 负责充电管理和电池保护
- 推荐：**TP4056** 或国产替代
- 价格：约 ¥1-2/片

#### 📟 其他小零件

| 零件 | 说明 | 估价 |
|------|------|------|
| LED指示灯 | 显示录音、连接、电量状态 | ¥0.5 |
| 物理按键 | 开机/录音键 × 1 | ¥1 |
| Type-C 接口 | 充电和数据传输 | ¥1 |
| 复位电路 | 防止死机 | ¥0.5 |
| PCB板 | 4层电路板 | ¥5-8 |
| 磁吸片 | 吸附在手机上 | ¥2 |
| 外壳模具 | 开模费3-5万，摊到每台约¥5 | ¥5 |

### 2.3 为什么能做这么薄（3.8mm）

秘诀就三点：
1. **用芯片级封装** — 芯片直接焊在电路板上，不用插座
2. **用MEMS麦克风** — 只有米粒大小，传统麦克风是大筒子
3. **用超薄聚合物电池** — 3mm厚度，刚好和电路板叠在一起

### 2.4 外壳怎么做

**材质选择：**

- **方案A（推荐）：铝合金+塑料**
  - 正面：磨砂铝合金，手感好、散热好
  - 背面：磁吸片嵌入塑料底壳
  - 侧面：Type-C开口
  - 颜色：深空灰/银色

- **方案B（低成本）：全塑料**
  - ABS塑料注塑成型
  - 表面磨砂处理
  - 成本低但质感略差

**生产流程：**
1. 3D设计 → 开模具（约3-5周）
2. 注塑/CNC加工
3. 表面处理（喷砂、阳极氧化等）
4. 组装

### 2.5 硬件BOM成本汇总

| 部件 | 单价（批量） |
|------|------------|
| 主控芯片 | ¥25-35 |
| 麦克风×6 | ¥12-24 |
| 64GB 存储 | ¥30-40 |
| 电池 | ¥15-20 |
| 蓝牙/WiFi芯片 | ¥10-15 |
| 电源管理 | ¥1-2 |
| 其他零件 | ¥10-15 |
| PCB + 焊接 | ¥8-12 |
| 外壳 | ¥8-12 |
| **总计** | **¥120-175** |

> 注：开模费一次性约3-5万元，量越大单台成本越低。  
> 建议首批做1000台，单台成本可控制在¥150以内。

---

## 3. 软件怎么做

### 3.1 软件系统架构

```
┌─────────────────────────────────────────────────┐
│             整 体 软 件 架 构                      │
│                                                   │
│  ┌──────────────┐    ┌──────────────┐           │
│  │  设备固件     │    │  手机APP      │           │
│  │  (C语言)     │◄──►│  (iOS/安卓)   │           │
│  │              │  蓝牙/WiFi      │           │
│  │  • 录音控制  │    │  • 录音管理    │           │
│  │  • 音频采集  │    │  • 实时转写    │           │
│  │  • 降噪处理  │    │  • AI总结      │           │
│  │  • 低功耗    │    │  • 翻译        │           │
│  │  • 文件管理  │    │  • 分享导出    │           │
│  └──────────────┘    └──────┬───────┘           │
│                              │                   │
│                         ┌────▼───────┐           │
│                         │  云端服务    │           │
│                         │  (云服务器)  │           │
│                         │             │           │
│                         │  • 语音识别  │           │
│                         │  • 大模型AI  │           │
│                         │  • 用户管理  │           │
│                         │  • 文件存储  │           │
│                         └────────────┘           │
└─────────────────────────────────────────────────┘
```

### 3.2 设备固件（装在小卡片里的程序）

**用什么写：** C语言 + FreeRTOS（小型实时操作系统）

**主要功能模块：**

#### 模块1：录音引擎

```c
// 伪代码示意——实际逻辑类似这样
void recording_loop() {
    while(button_pressed == ON) {
        // 从6个麦克风采集音频
        audio_data = mic_array_collect();
        
        // 降噪处理（去除环境噪音）
        clean_data = noise_reduction(audio_data);
        
        // 压缩音频（节省存储空间）
        compressed = audio_encode(clean_data, FORMAT_AAC);
        
        // 写入存储芯片
        flash_write(compressed);
        
        // 如有蓝牙连接，实时传输
        if (ble_connected) {
            ble_send(compressed);
        }
    }
}
```

- 录音格式：AAC（高质量）/ OPUS（省空间）
- 采样率：16kHz/44.1kHz 可选
- 降噪算法：基于RNN的实时降噪模型

#### 模块2：低功耗管理

- 按下开机键→ 10ms内启动录音
- 无操作30分钟 → 自动待机
- 待机电流 < 50μA
- 通过蓝牙BLE广播设备状态（电量、存储量）

#### 模块3：文件管理

- 每段录音自动命名：`2026-04-30_14-30-00.aac`
- 存储满后自动覆盖最早的录音（可设置）
- 支持通过蓝牙/WiFi批量传输

### 3.3 手机APP

**开发平台：** Flutter（一套代码同时跑在iOS和安卓上）

**推荐方案：** Flutter + Dart 语言
- 一套代码 = iOS + 安卓 + 网页版
- 开发效率高，维护成本低

**主要页面和功能：**

| 页面 | 功能 |
|------|------|
| 🏠 首页 | 最近录音列表、搜索、快捷录音 |
| 🎙️ 录音详情 | 播放录音、查看转写文本、AI总结 |
| 🌐 翻译 | 中英/多语种对照翻译 |
| 📊 统计 | 累计录音时长、字数统计 |
| 👤 我的 | 账号、设置、帮助 |

**核心功能流程：**

```
打开APP → 自动连接录音卡 → 查看录音列表
                                   │
                            ┌──────▼──────┐
                            │  选择一段录音  │
                            └──────┬──────┘
                                   │
                    ┌──────────────┼──────────────┐
                    ▼              ▼              ▼
              ┌──────────┐  ┌──────────┐  ┌──────────┐
              │  转写文字  │  │  AI总结   │  │  导出分享  │
              │  (语音→文) │  │ (提炼要点) │  │ (Word/PDF)│
              └──────────┘  └──────────┘  └──────────┘
```

### 3.4 重点软件功能详解

#### 🗣️ 语音转文字

- 调用云端语音识别API（百度/阿里/腾讯/讯飞 都可以）
- 支持：普通话、英语、粤语、中英混合
- 准确率：安静环境 > 97%，嘈杂环境 > 90%
- 返回带时间戳的文字，可以点击文字跳转到对应录音位置

#### 🤖 AI 智能总结

- 把转写好的文字送给大模型（DeepSeek / 千问 / ChatGPT）
- 大模型自动提炼：
  - **会议要点** — 3-5个核心结论
  - **待办事项** — 谁要做什么
  - **关键问题** — 讨论中提到的关键疑问
  - **下一步行动** — 明确的行动计划

#### 🌐 实时翻译

- 说话时同时显示原文和译文
- 支持120+语言互译
- 延迟 < 1秒（依赖网络）
- 离线模式：下载语言包后可离线翻译

---

## 4. 通信方案

### 4.1 数据流向

```
录音卡 ──蓝牙/WiFi──► 手机APP ──4G/WiFi──► 云端
  │                      │                     │
  │  蓝牙：实时传输      │  配置文件下发        │  语音识别
  │  WiFi：批量传大文件   │  固件更新            │  AI总结
  │                      │  录音列表同步        │  文件存储
  └──────────────────────┴─────────────────────┘
```

### 4.2 两种传输模式

| 模式 | 使用场景 | 速度 | 功耗 |
|------|---------|------|------|
| **蓝牙 BLE** | 实时传输小片段 | ~20KB/s | 极低 |
| **WiFi** | 批量传输大文件 | ~2MB/s | 中等 |

**使用逻辑：**
1. 默认走蓝牙，传输实时录音和转写文字
2. 当蓝牙断开（手机离太远）时，录音存在设备本地
3. 连接上WiFi后自动同步
4. 手机APP上打开"快速传输"模式 → 切换到WiFi传输

### 4.3 通信安全

- 蓝牙配对：采用 **LE Secure Connections** 加密配对
- 数据传输：全程 **TLS 1.3** 加密
- 云端存储：文件加密存储（AES-256）
- 用户数据隔离：每个用户独立的加密密钥

---

## 5. 云端AI服务

### 5.1 服务架构

```
┌─────────────────────────────────────────────────────┐
│                    云服务器                           │
│                                                      │
│  ┌──────────┐  ┌──────────┐  ┌──────────────────┐  │
│  │ 语音识别  │  │ 大模型AI  │  │  用户服务         │  │
│  │ (ASR)    │  │ (LLM)    │  │                  │  │
│  │          │  │          │  │  • 用户注册登录    │  │
│  │ 讯飞/百度 │  │ DeepSeek │  │  • 录音文件存储    │  │
│  │ 阿里/腾讯 │  │ 千问     │  │  • 分享链接生成    │  │
│  └──────────┘  └──────────┘  │  • 统计与分析      │  │
│                               └──────────────────┘  │
└─────────────────────────────────────────────────────┘
```

### 5.2 API服务选型

| 服务 | 提供商 | 预估费用 |
|------|--------|---------|
| 语音转文字 | 讯飞/阿里云 | 约 ¥0.5/小时 |
| AI总结/翻译 | DeepSeek API | 约 ¥0.3/小时 |
| 文件存储 | 阿里云OSS | 约 ¥0.1/GB/月 |
| 云服务器 | 阿里云ECS | 约 ¥100-200/月 |

以每个用户每月使用 **20小时** 录音计算：
- 语音转写：20 × ¥0.5 = ¥10
- AI 总结：20 × ¥0.3 = ¥6
- 存储：约 ¥1
- **单用户云成本 ≈ ¥17/月**

### 5.3 免费额度策略

参考竞品策略：

| 方案 | 价格 | 包含服务 |
|------|------|---------|
| 🆓 基础版 | ¥0/月 | 300分钟/月转写，基础总结 |
| 🌟 专业版 | ¥19.9/月 | 1500分钟/月，高级AI总结，翻译 |
| 🏢 企业版 | ¥99/月 | 不限时长，专属API，团队协作 |

---

## 6. 成本估算

### 6.1 硬件成本

| 项目 | 单价（批量1000台） |
|------|------------------|
| 元器件BOM | ¥150 |
| 组装测试 | ¥15 |
| 包装配件 | ¥10 |
| 物流 | ¥8 |
| **单台硬件成本** | **¥183** |

### 6.2 一次性投入

| 项目 | 费用 |
|------|------|
| 外壳模具 | ¥30,000-50,000 |
| 软件研发（3人×3个月） | ¥150,000-300,000 |
| 认证费用（CE/FCC/3C） | ¥50,000-80,000 |
| **总计** | **¥230,000-430,000** |

### 6.3 定价策略

| 版本 | 售价 | 毛利 |
|------|------|------|
| 基础版（纯蓝牙） | ¥299 | ¥116 (39%) |
| 标准版（蓝牙+WiFi，64GB） | ¥499 | ¥316 (63%) | 
| Pro版（蓝牙+WiFi，128GB） | ¥699 | ¥516 (74%) |

> 以标准版¥499计算，卖 **860台** 就能收回模具和认证投入。

---

## 7. 开发路线图

### 阶段一：方案验证（1-2月）

```
任务清单：
□ 硬件选型确认
□ 核心功能原型（用开发板搭建）
    - 树莓派Pico + 麦克风阵列
    - 实现基础录音和降噪
□ 软件原型（Flutter Demo）
    - 录音列表界面
    - 播放/暂停功能
□ 云端API对接测试
    - 语音转写API
    - 大模型总结API
```

**目标：** 证明技术可行，做出可演示的原型

### 阶段二：工程样机（2-3月）

```
任务清单：
□ PCB设计打样（3-4版迭代）
□ 固件开发（录音、蓝牙传输、低功耗）
□ APP开发（转写、总结、翻译功能）
□ 外壳3D打印验证
□ 内部测试（录音质量、续航、稳定性）
```

**目标：** 做出工程样机，内部测试通过

### 阶段三：量产准备（2-3月）

```
任务清单：
□ 外壳开模
□ 认证申请（3C、CE/FCC）
□ 小批量试产（100台）
□ APP上架（App Store + 应用宝）
□ 云端服务部署
□ 用户手册编写
□ 生产SOP（标准作业流程）
```

**目标：** 拿到认证，完成小批量试产

### 阶段四：上市（持续）

```
任务清单：
□ 首批量产（1000台）
□ 线上销售（京东/淘宝/拼多多）
□ 用户反馈收集
□ 固件/APP迭代
□ 市场推广
```

### 总开发时间预估

| 如果团队是... | 需要的时间 | 需要的钱 |
|--------------|-----------|---------|
| 🏠 自己DIY折腾 | 6-9个月 | ¥5-10万 |
| 👥 2-3人小团队 | 4-6个月 | ¥30-50万 |
| 🏢 10人正规团队 | 3-4个月 | ¥80-150万 |

---

## 8. 常见问题

### Q1：为什么叫"卡片"不是"录音笔"？

因为它真的像一个卡片——**名片大小、3.8mm厚、40克重**。可以磁吸在手机背面、夹在笔记本里、放在口袋里。传统录音笔是笔形，厚得多。

### Q2：不联网能用吗？

可以录音，录音保存在设备本地。但**转写文字、AI总结、翻译**这些需要联网调用云端API。没网的时候先录着，连上网后再处理。

### Q3：和市面上产品有什么不一样？

我们主打**超低价 + 开源方案**。目标把价格做到¥299起，让更多人用上AI录音。同时软件方案开源，用户可以自己定制。

### Q4：录音存储能存多久？

64GB ≈ 400小时录音（连续说话）。如果是开会，每天8小时能用50天。满后会**自动覆盖最早**的录音。

### Q5：能否接入企业微信/钉钉/飞书？

可以！通过API对接，录音完成后自动：
- 生成会议纪要发到群
- 创建待办事项
- 归档到文档系统

### Q6：隐私安全吗？

- 录音默认只存本地
- 云端传输全程加密
- 用户可以随时删除云端数据
- 不开通云端服务 = 纯本地设备

---

> 📅 本方案由小树集团研发部编写  
> 🛠️ 研发总监：小美 | 前端开发：小壮 | 后端架构：大壮  
> 📧 商务合作：请联系小树
