feat: 完成L09统一文档解析模块与MinerU PDF Provider接入

- 新增 easy-agents-document 聚合、document-core 与 document-pdf 模块

- 接入 MinerU PDF provider,支持同步解析、异步任务与 ZIP 结果映射

- 移除 easy-agents-rag-ocr 空壳并补齐 starter 自动装配
This commit is contained in:
2026-04-14 19:57:32 +08:00
parent 090eca5df5
commit aa3e90b990
34 changed files with 3280 additions and 34 deletions

View File

@@ -38,16 +38,6 @@
- 章节/问答/段落分块
- 自动推荐拆分策略
### `easy-agents-rag-ocr`
定位OCR 与版面恢复能力。
负责内容:
- 图片/PDF OCR
- 页面版面解析
- 标题、段落、表格等结构恢复
- PDF 到结构化文本或 Markdown 的转换
### `easy-agents-rag-enhance`
定位:索引前增强能力。
@@ -84,19 +74,22 @@
- 控制器与接口 DTO
- 业务库持久化
- 前端导入页面
- OCR / PDF 解析能力
这些能力继续留在业务工程,由业务层依赖 `easy-agents-rag` 提供的能力完成编排。
其中 OCR / PDF 解析能力改由独立的 `easy-agents-document` 能力域承接,不再归属 `easy-agents-rag`
## 后续演进
后续演进顺序建议如下:
1. 完成 `rag-ingestion` 首批能力迁移并稳定对外接口
2. 补充 `rag-ocr`,接入 OCR 与版面恢复
3. 补充 `rag-enhance`支持图增强、RAPTOR、索引增强
4. 补充 `rag-retrieval`,统一查询增强与召回后处理
2. 补充 `rag-enhance`支持图增强、RAPTOR、索引增强
3. 补充 `rag-retrieval`,统一查询增强与召回后处理
整体原则:
- `easy-agents-core` 保持基础抽象
- `easy-agents-rag` 聚合 RAG 领域实现
- `easy-agents-document` 承接 OCR、版面理解与 PDF 解析等文档处理能力
- 业务工程只保留编排、持久化与产品层逻辑