杠精派
派聪明
0/512

热门评论

Nanako 2026年03月21日 18:07
@派聪明 文件上传完并合并完之后,完整的文件会按一个目录结构存在数据库里吗(例如MySQL)?
点赞
回复5 取消回复
派聪明 2026年03月21日 18:07
文件合并后,**完整文件不会直接存储在数据库中**,而是保存在文件系统(如MinIO),数据库仅记录文件的元数据信息。具体说明如下: ### 1. **文件存储位置** - **文件系统**:合并后的文件存储在MinIO的`/documents/{userId}/{fileName}`路径下(参考资料[3])。 - **数据库**:仅存储文件的元数据(如MD5、文件名、大小、状态等),不存储实际文件内容(参考资料[5][6][10])。 ### 2. **目录结构处理** - **文件系统保留结构**:若上传的是文件夹,合并后的文件在MinIO中会保持原始目录层级(参考资料[4][8])。 - **数据库记录路径**:数据库通过`file_name`字段记录文件名(可能包含路径信息),但**不存储目录结构本身**(参考资料[6][10])。例如: ```sql -- MySQL表结构示例(参考资料[5]) CREATE TABLE file_upload ( file_md5 VARCHAR(32) PRIMARY KEY, -- 文件唯一标识 file_name VARCHAR(255) NOT NULL, -- 文件名(可能含路径) storage_path VARCHAR(255) -- 文件系统存储路径(如MinIO路径) ); ``` ### 3. **关键设计逻辑** - **分片合并**:文件分片上传后,服务端在MinIO合并为完整文件(参考资料[3])。 - **元数据管理**:数据库通过`file_upload`表记录文件元数据,`chunk_info`表记录分片信息(参考资料[5][10])。 - **虚拟路径存储**:数据库中存储的是文件在MinIO的虚拟路径(如`/documents/user1/report.pdf`),而非二进制内容(参考资料[6][10])。 ### 总结 - **实际文件**:存储在文件系统(MinIO),保留目录结构。 - **数据库**:仅存储文件的元数据(如MD5、路径、大小等),不存储文件内容或目录结构本身。 若需管理目录层级,需在文件系统层面维护,数据库通过路径字符串间接体现(如`file_name="folder/subfolder/report.pdf"`)。
点赞
回复 取消回复
展开剩余 4 条回复

110 条评论

nyl 2026年06月15日 18:56
引用原文:存储上传的文件分片,路径结构为/temp/{fileMd5}/{chunkIndex}
临时数据删除了吗
点赞
回复 取消回复
boom 2026年06月09日 21:28
@派聪明 文档分片操作是在前端代码中完成吗?分片后一个一个上传到后端的/api/v1/upload/chunk接口吗?
点赞
回复1 取消回复
派聪明 2026年06月09日 21:28
是的。根据提供的系统设计,文档的分片上传机制如下: 1. **前端负责分片计算**:上传流程的第一步是“客户端根据策略分片上传文件”,这意味着前端代码需要将大文件分割成多个分片,并为每个分片标记索引。 2. **逐个上传至后端**:分片后,前端会调用 `/api/v1/upload/chunk`接口,将分片数据逐个发送给后端。从接口参数设计可以看出,每次请求都会携带一个具体的 `chunkIndex`(分片索引)和对应的分片文件数据。 3. **后端记录与合并**:后端接收到这些分片后,会存入 MinIO 的临时目录中,并通过 Redis 的 BitSet技术记录已上传的分片位图。当所有分片全部上传完成后,前端再调用 `/api/v1/upload/merge`接口,触发后端进行文件合并。
点赞
回复 取消回复
walter 2026年05月28日 15:49
引用原文:四、接口设计
为什么没有说文档解析与向量化的接口设计
点赞
回复1 取消回复
walter 2026年05月28日 15:53
@派聪明,为什么这里没有说文档解析与向量化的接口设计
点赞
回复 取消回复
junnichi910 2026年05月26日 20:46
引用原文:PDF、Word、Excel
@派聪明 如果文档有表格怎么处理,表格跨页怎么处理
点赞
回复 取消回复
高高的雪糕 2026年05月03日 22:56
@派聪明 解析结果表中的chunk_id是chunk_info分片表中的id吗,但是解析结果表是嵌入模型向量化时的文档分片吧,而分片表中是断点续传的分片信息,这里我理解的是否有问题,还没看代码
点赞
回复 取消回复
高高的雪糕 2026年05月03日 22:55
解析结果表中的chunk_id是chunk_info分片表中的id吗,但是解析结果表是嵌入模型向量化时的文档分片吧,而分片表中是断点续传的分片信息,这里我理解的是否有问题,还没看代码
点赞
回复 取消回复
angrybird 2026年04月17日 22:51
引用原文:预留 FAISS 接口
@派聪明 这是什么
点赞
回复 取消回复
心平气和 2026年04月12日 16:52
引用原文:分片表
应该是分块表
点赞
回复 取消回复
亚泽 2026年04月09日 09:02
引用原文:成功:
@派聪明 请问这里progress的含义是什么?
点赞
回复 取消回复
亚泽 2026年04月09日 09:02
引用原文:失败响应
@派聪明 成功响应中各个参数的含义
点赞
回复 取消回复

目录