feat: 完成L09统一文档解析模块与MinerU PDF Provider接入
- 新增 easy-agents-document 聚合、document-core 与 document-pdf 模块 - 接入 MinerU PDF provider,支持同步解析、异步任务与 ZIP 结果映射 - 移除 easy-agents-rag-ocr 空壳并补齐 starter 自动装配
This commit is contained in:
@@ -38,16 +38,6 @@
|
||||
- 章节/问答/段落分块
|
||||
- 自动推荐拆分策略
|
||||
|
||||
### `easy-agents-rag-ocr`
|
||||
|
||||
定位:OCR 与版面恢复能力。
|
||||
|
||||
负责内容:
|
||||
- 图片/PDF OCR
|
||||
- 页面版面解析
|
||||
- 标题、段落、表格等结构恢复
|
||||
- PDF 到结构化文本或 Markdown 的转换
|
||||
|
||||
### `easy-agents-rag-enhance`
|
||||
|
||||
定位:索引前增强能力。
|
||||
@@ -84,19 +74,22 @@
|
||||
- 控制器与接口 DTO
|
||||
- 业务库持久化
|
||||
- 前端导入页面
|
||||
- OCR / PDF 解析能力
|
||||
|
||||
这些能力继续留在业务工程,由业务层依赖 `easy-agents-rag` 提供的能力完成编排。
|
||||
|
||||
其中 OCR / PDF 解析能力改由独立的 `easy-agents-document` 能力域承接,不再归属 `easy-agents-rag`。
|
||||
|
||||
## 后续演进
|
||||
|
||||
后续演进顺序建议如下:
|
||||
|
||||
1. 完成 `rag-ingestion` 首批能力迁移并稳定对外接口
|
||||
2. 补充 `rag-ocr`,接入 OCR 与版面恢复
|
||||
3. 补充 `rag-enhance`,支持图增强、RAPTOR、索引增强
|
||||
4. 补充 `rag-retrieval`,统一查询增强与召回后处理
|
||||
2. 补充 `rag-enhance`,支持图增强、RAPTOR、索引增强
|
||||
3. 补充 `rag-retrieval`,统一查询增强与召回后处理
|
||||
|
||||
整体原则:
|
||||
- `easy-agents-core` 保持基础抽象
|
||||
- `easy-agents-rag` 聚合 RAG 领域实现
|
||||
- `easy-agents-document` 承接 OCR、版面理解与 PDF 解析等文档处理能力
|
||||
- 业务工程只保留编排、持久化与产品层逻辑
|
||||
|
||||
Reference in New Issue
Block a user