Gemini 3 现已作为 Tensorlake 中的 OCR 模型提供。
Gemini 3 现已在 Tensorlake 中可用
自 Flash 2.5 版本以来,谷歌的 Gemini 模型在文档解析方面表现出色。最新的 Gemini 3 更进一步,在 OmniDocBench 测试中,其编辑距离 (0.115) 低于 GPT-5.1 (0.147) 和 Claude Sonnet 4.5。
从今天起,您可以使用 Tensorlake 的文档导入 API 将 Gemini 用作 OCR 引擎。您可以批量导入文档,并将其转换为 Markdown 格式、对页面进行分类或使用 JSON Schema 提取结构化数据。Tensorlake 将负责文档排队、速率限制以及在文档处理过程中向您发送 Webhook。
我们在 Tensorlake 中对 Gemini 3 进行了测试,在“不利”的文档布局上,测试结果立竿见影。
案例研究1:表格结构识别
文件:谷歌 2024 年环境报告
财务和科学报告会使用缩进、浮动列和符号等视觉提示来传达含义。为了验证这一点,我们将附录中复杂的“用水量”表格导入了 Gemini 3 软件。
挑战
这张表格是半无线的——有些行之间用线条分隔,而列之间没有边界。右侧的列与主块断开了连接。
双子座3号任务结果:视觉理解
Gemini3 能完美地理解这张表格。这是 Tensorlake 云控制面板的截图。
案例研究 2:VQA + 结构化输出
文件:房屋平面图
我们想测试 Gemini 3 是否能够解析建筑文档上的视觉符号。我们将 Gemini 3 集成到 Tensorlake 的结构化提取流程中。
输入:一份房屋平面图的原始 PDF 文件和一个 Pydantic schema,其中定义了我们需要的确切字段(例如,kitchen_outlets:int,描述:厨房和餐厅角落中标准和 GFI 电源插座的数量,如图例中标记为“插座”的图标所示)。
供您参考,这里是厨房+用餐区。
根据同一页上的图例,带两条线的圆圈代表插座:
挑战
图中没有“插座”的文字标签,它只与图例中的符号相关联。模型必须识别图例中定义的特定圆圈和线条图标,将其搜索空间限制在“厨房”的视觉边界内,并将计数聚合到我们的 JSON 结构中。
结果
Gemini 3 成功理解了可视化图表。它返回了一个有效的 JSON 对象,其中包含 6 个插座,并能正确区分它们与附近的数据端口和交换机。
Tensorlake 将专用 OCR 模型和 VLM 集成到一套便捷的 API 中。虽然您可以直接调用 Gemini API,但这需要您重新构建生产流程中许多未区分的环节。Gemini 3 现在已与 Tensorlake DocAI API 完全集成,可用于读取、分类文档和提取文档信息。
Tensorlake 解决了使用虚拟语言模型 (VLM) 构建文档摄取 API 时遇到的两大难题:
-
批量导入与速率限制:根据我们的观察,Gemini3 对峰值流量的处理能力较差。一次性导入 10,000 个文档会因严格的配额限制而触发错误。Tensorlake 管理队列,自动处理退避和重试,因此您可以导入海量数据集而不会遇到 429 错误。
-
分块处理大型文件: Tensorlake 会自动将大型文档分块成 25 页一组,以确保 Gemini 能够提取即使是最密集的页面。我们保证输出标记数不会超过 64k 的限制。
何时使用(以及何时不使用)Gemini 3
在以下情况下使用 Gemini 3:
- 需要复杂的视觉推理能力:你需要将图表的颜色图例与数据表关联起来,或者计算蓝图上的符号(如房屋平面图示例所示)。
以下情况请勿使用 Gemini 3:
-
您需要为引用添加边界框: Gemini 3 不会对文档中的对象进行布局检测。如果您的应用程序需要严格的边界框来精确突出显示特定段落或数字的出处,则需要使用此功能。
-
你需要严格的文本样式和字体检测:视觉细微差别,如删除线、下划线或特定字体颜色,通常会被 VLM 忽略,因为 VLM 更关注“内容”而不是样式。
对于这些任务,您应该使用 Tensorlake 的专用模型之一,例如 Model03。
如何在 Tensorlake 中使用 Gemini 3
操场
Gemini 3 现已在 Tensorlake Playground 上线,供用户进行实验:
或者您也可以使用我们的 HTTP API 或 SDK 进行选择:
from tensorlake.documentai import DocumentAI, ParsingOptions
client = DocumentAI()
parse_id = client.read(
file_url="https://tlake.link/docs/real-estate-agreement",
parsing_options=ParsingOptions(
ocr_model="gemini3"
)
)
result = client.result(parse_id)
)
接下来会发生什么?
文档导入存在许多特殊情况。我们希望用户始终能够使用最先进的模型,以便他们能够通过调整 OCR 流程的各个方面,以极少的代码更改,快速解决他们的使用场景。
我们将在 Tensorlake 的文档导入 API 中添加更多基础模型作为 OCR 模型选项。
想讨论您的具体使用案例?请与我们的团队
预约技术演示。
对基准测试有疑问?
加入我们的 Slack 社区





