杠精派
派聪明
0/512

热门评论

蜡笔不小芯 2026年01月22日 11:24
引用原文:父级标签时自动获得所有子级标签的访问权限
应该是子级自动获取父级标签吧
点赞
回复4 取消回复
Everett 2026年01月22日 22:08
获得高等级访问权限的时候自动获得下面低等级的访问权限,没错吧
点赞
回复 取消回复
蜡笔不小芯 2026年01月23日 11:00
那为啥写的是继承啊
获得高等级访问权限的时候自动获得下面低等级的访问权限,没错吧
点赞
回复 取消回复
Everett 2026年01月23日 14:36
我去看了一下***********************,getUserEffectiveOrgTags 和 collectParentTags的实现逻辑确实是子级自动获取父级标签
那为啥写的是继承啊
1
回复 取消回复
小时月 2026年03月05日 23:17
那是文档写反了吗
我去看了一下***********************,getUserEffectiveOrgTags 和 collectParentTags的实现逻辑确实是子级自动获取父级标签
点赞
回复 取消回复

5 条评论

活力的抽屉 2026年03月02日 09:51
引用原文:公开、部门内可见或仅个人可见
文档已经有**标签控制访问权限了,为什么还需要设置可见范围?只部门内可见的文档,它的**标签设为部门标签不就可以了?
点赞
回复1 取消回复
活力的抽屉 2026年03月02日 09:53
@派聪明
点赞
回复 取消回复
赵一方 2026年02月28日 10:13
引用原文:文本提取功能是这个模块的核心技术之一,我们使用了 Apache Tika 的文档解析技术,能够准确地从各种格式的文档中提取出纯文本内容,同时保留重要的结构信息。
@派聪明 可以提取文档中的图片中的内容吗?
点赞
回复1 取消回复
派聪明 2026年02月28日 10:14
根据参考资料中关于文档处理模块的描述,**Apache Tika 主要用于提取文档中的纯文本内容,无法直接提取图片中的文字信息**。具体说明如下: 1. **核心能力限制** Apache Tika 的核心功能是解析结构化文档(如 PDF、Word、Excel 等)中的**文本和元数据**,通过文档解析技术提取纯文本并保留结构信息(如标题、段落等)。但它**不具备图像识别能力**,无法处理图片中的文字或内容。 2. **图片内容需额外技术** 若需提取图片中的文字,需集成 **OCR(光学字符识别)技术**(如 Tesseract、百度OCR等)。当前派聪明的文档处理流程中未涉及此类技术,因此图片中的文字无法被直接提取或索引。 3. **系统当前支持范围** 参考资料显示,派聪明支持上传的文档类型包括 PDF、Word、文本文件等,但明确未提及图片格式(如 JPG、PNG)。用户上传的图片可能仅作为附件存储,其内容无法被检索或用于知识库问答。 **结论**: 当前系统**无法提取图片中的文字内容**。如需支持图片文字检索,需扩展技术栈,集成 OCR 服务并优化文档处理流程。
点赞
回复 取消回复
Yuxy 2026年02月06日 00:03
引用原文:在分块完成后,系统会对生成的文本块进行合并和优化处理。这个步骤主要是为了确保文本块的质量和完整性。系统会检查相邻的文本块是否存在语义上的连续性,如果某些块过短或者语义不完整,会考虑与相邻块进行合并。同时,系统还会过滤掉一些无意义的内容,比如页眉页脚、图片说明等,确保每个文本块都包含有价值的信息内容。
这个似乎在源码中没有实现?
3
回复 取消回复
蜡笔不小芯 2026年01月22日 11:24
引用原文:父级标签时自动获得所有子级标签的访问权限
应该是子级自动获取父级标签吧
点赞
回复4 取消回复
Everett 2026年01月22日 22:08
获得高等级访问权限的时候自动获得下面低等级的访问权限,没错吧
点赞
回复 取消回复
蜡笔不小芯 2026年01月23日 11:00
那为啥写的是继承啊
获得高等级访问权限的时候自动获得下面低等级的访问权限,没错吧
点赞
回复 取消回复
Everett 2026年01月23日 14:36
我去看了一下***********************,getUserEffectiveOrgTags 和 collectParentTags的实现逻辑确实是子级自动获取父级标签
那为啥写的是继承啊
1
回复 取消回复
小时月 2026年03月05日 23:17
那是文档写反了吗
我去看了一下***********************,getUserEffectiveOrgTags 和 collectParentTags的实现逻辑确实是子级自动获取父级标签
点赞
回复 取消回复
zfx535976386 2026年01月07日 14:09
引用原文:同时,系统还会将文档的元数据信息更新到 MySQL 数据库中,包括处理状态、向量化完成时间等信息,确保数据的一致性和完整性。
这个部分的功能在哪里啊 源代码中没有发现啊
1
回复2 取消回复
xiaooooowen 2026年01月18日 23:05
目前的代码实现似乎只完成了“核心业务逻辑”(上传->解析->向量化->存入 ES)的部分,而缺少了最后一步“状态回写 MySQL”的闭环。
1
回复 取消回复
Yuxy 2026年02月05日 23:59
有的,在ParseService点java的saveChildChunks()方法,会将分片之后的数据保存到 document_vectors表中。
点赞
回复 取消回复

目录