/api/v1/tasks/submit
curl -X POST "http://localhost:8000/api/v1/tasks/submit" \
-F "file=@document.pdf" \
-F "backend=pipeline" \
-F "lang=ch"
结构化与生俱来
面向复杂文档的版式感知解析——下游知识与抽取从干净结构起步,而非嘈杂文本。
99%
0.12s
单页延迟
多模态输入
扫描件、照片、混排版式与表格皆可——MinerU 为真实世界的文档混乱而生。
EN
ZH
JP
+
table_chart
表格与版式
还原表格、标题与阅读顺序,支撑可靠的下游 schema 映射。
security
下游就绪
输出对齐 ThinkDoc / ThinkExtract 流水线——团队无需在每一层重建解析。
保留语义的
解析
多模态文档理解:保留结构、恢复语义、为知识系统准备证据。
AI Logic
psychology
多模态理解
处理 PDF、嵌入图像与难辨扫描件,同时保留人类解读页面所用的线索。
AI Logic
account_tree
版式与阅读顺序
重建标题、章节、表格与侧栏,使检索与抽取作用于正确单元。
AI Logic
auto_awesome
结构化输出
输出简洁的 Markdown / 友好 JSON 结构,接入 ThinkDoc 知识图与 ThinkExtract schema。
为生产流水线而建。
金融、制造、科研、政策与互联网规模项目——解析质量决定下游一切。
500M+
页 / 月
99.9%
可用性 SLA