feat: 完成L09统一文档解析模块与MinerU PDF Provider接入
- 新增 easy-agents-document 聚合、document-core 与 document-pdf 模块 - 接入 MinerU PDF provider,支持同步解析、异步任务与 ZIP 结果映射 - 移除 easy-agents-rag-ocr 空壳并补齐 starter 自动装配
This commit is contained in:
@@ -38,16 +38,6 @@
|
||||
- 章节/问答/段落分块
|
||||
- 自动推荐拆分策略
|
||||
|
||||
### `easy-agents-rag-ocr`
|
||||
|
||||
定位:OCR 与版面恢复能力。
|
||||
|
||||
负责内容:
|
||||
- 图片/PDF OCR
|
||||
- 页面版面解析
|
||||
- 标题、段落、表格等结构恢复
|
||||
- PDF 到结构化文本或 Markdown 的转换
|
||||
|
||||
### `easy-agents-rag-enhance`
|
||||
|
||||
定位:索引前增强能力。
|
||||
@@ -84,19 +74,22 @@
|
||||
- 控制器与接口 DTO
|
||||
- 业务库持久化
|
||||
- 前端导入页面
|
||||
- OCR / PDF 解析能力
|
||||
|
||||
这些能力继续留在业务工程,由业务层依赖 `easy-agents-rag` 提供的能力完成编排。
|
||||
|
||||
其中 OCR / PDF 解析能力改由独立的 `easy-agents-document` 能力域承接,不再归属 `easy-agents-rag`。
|
||||
|
||||
## 后续演进
|
||||
|
||||
后续演进顺序建议如下:
|
||||
|
||||
1. 完成 `rag-ingestion` 首批能力迁移并稳定对外接口
|
||||
2. 补充 `rag-ocr`,接入 OCR 与版面恢复
|
||||
3. 补充 `rag-enhance`,支持图增强、RAPTOR、索引增强
|
||||
4. 补充 `rag-retrieval`,统一查询增强与召回后处理
|
||||
2. 补充 `rag-enhance`,支持图增强、RAPTOR、索引增强
|
||||
3. 补充 `rag-retrieval`,统一查询增强与召回后处理
|
||||
|
||||
整体原则:
|
||||
- `easy-agents-core` 保持基础抽象
|
||||
- `easy-agents-rag` 聚合 RAG 领域实现
|
||||
- `easy-agents-document` 承接 OCR、版面理解与 PDF 解析等文档处理能力
|
||||
- 业务工程只保留编排、持久化与产品层逻辑
|
||||
|
||||
@@ -1,32 +0,0 @@
|
||||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<project xmlns="http://maven.apache.org/POM/4.0.0"
|
||||
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
|
||||
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
|
||||
<modelVersion>4.0.0</modelVersion>
|
||||
|
||||
<parent>
|
||||
<groupId>com.easyagents</groupId>
|
||||
<artifactId>easy-agents-rag</artifactId>
|
||||
<version>${revision}</version>
|
||||
</parent>
|
||||
|
||||
<artifactId>easy-agents-rag-ocr</artifactId>
|
||||
<name>easy-agents-rag-ocr</name>
|
||||
|
||||
<properties>
|
||||
<maven.compiler.source>8</maven.compiler.source>
|
||||
<maven.compiler.target>8</maven.compiler.target>
|
||||
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
|
||||
</properties>
|
||||
|
||||
<dependencies>
|
||||
<dependency>
|
||||
<groupId>com.easyagents</groupId>
|
||||
<artifactId>easy-agents-core</artifactId>
|
||||
</dependency>
|
||||
<dependency>
|
||||
<groupId>com.easyagents</groupId>
|
||||
<artifactId>easy-agents-rag-core</artifactId>
|
||||
</dependency>
|
||||
</dependencies>
|
||||
</project>
|
||||
@@ -17,7 +17,6 @@
|
||||
<modules>
|
||||
<module>easy-agents-rag-core</module>
|
||||
<module>easy-agents-rag-ingestion</module>
|
||||
<module>easy-agents-rag-ocr</module>
|
||||
<module>easy-agents-rag-enhance</module>
|
||||
<module>easy-agents-rag-retrieval</module>
|
||||
</modules>
|
||||
|
||||
Reference in New Issue
Block a user