feat: 完成L09统一文档解析模块与MinerU PDF Provider接入

- 新增 easy-agents-document 聚合、document-core 与 document-pdf 模块

- 接入 MinerU PDF provider,支持同步解析、异步任务与 ZIP 结果映射

- 移除 easy-agents-rag-ocr 空壳并补齐 starter 自动装配
This commit is contained in:
2026-04-14 19:57:32 +08:00
parent 090eca5df5
commit aa3e90b990
34 changed files with 3280 additions and 34 deletions

View File

@@ -38,16 +38,6 @@
- 章节/问答/段落分块
- 自动推荐拆分策略
### `easy-agents-rag-ocr`
定位OCR 与版面恢复能力。
负责内容:
- 图片/PDF OCR
- 页面版面解析
- 标题、段落、表格等结构恢复
- PDF 到结构化文本或 Markdown 的转换
### `easy-agents-rag-enhance`
定位:索引前增强能力。
@@ -84,19 +74,22 @@
- 控制器与接口 DTO
- 业务库持久化
- 前端导入页面
- OCR / PDF 解析能力
这些能力继续留在业务工程,由业务层依赖 `easy-agents-rag` 提供的能力完成编排。
其中 OCR / PDF 解析能力改由独立的 `easy-agents-document` 能力域承接,不再归属 `easy-agents-rag`
## 后续演进
后续演进顺序建议如下:
1. 完成 `rag-ingestion` 首批能力迁移并稳定对外接口
2. 补充 `rag-ocr`,接入 OCR 与版面恢复
3. 补充 `rag-enhance`支持图增强、RAPTOR、索引增强
4. 补充 `rag-retrieval`,统一查询增强与召回后处理
2. 补充 `rag-enhance`支持图增强、RAPTOR、索引增强
3. 补充 `rag-retrieval`,统一查询增强与召回后处理
整体原则:
- `easy-agents-core` 保持基础抽象
- `easy-agents-rag` 聚合 RAG 领域实现
- `easy-agents-document` 承接 OCR、版面理解与 PDF 解析等文档处理能力
- 业务工程只保留编排、持久化与产品层逻辑

View File

@@ -1,32 +0,0 @@
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>com.easyagents</groupId>
<artifactId>easy-agents-rag</artifactId>
<version>${revision}</version>
</parent>
<artifactId>easy-agents-rag-ocr</artifactId>
<name>easy-agents-rag-ocr</name>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>com.easyagents</groupId>
<artifactId>easy-agents-core</artifactId>
</dependency>
<dependency>
<groupId>com.easyagents</groupId>
<artifactId>easy-agents-rag-core</artifactId>
</dependency>
</dependencies>
</project>

View File

@@ -17,7 +17,6 @@
<modules>
<module>easy-agents-rag-core</module>
<module>easy-agents-rag-ingestion</module>
<module>easy-agents-rag-ocr</module>
<module>easy-agents-rag-enhance</module>
<module>easy-agents-rag-retrieval</module>
</modules>