百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

使用 Gemini 2.0 Flash 对数百万个文档进行摄取和 RAG

wptr33 2025-08-06 23:25 50 浏览

在大模型盛行的时代,能高效处理海量文档的 RAG(检索增强生成)方案正成为企业的刚需。但现实是:高延迟、高成本、低吞吐,拦住了大多数人。而 Google 最新发布的 Gemini 2.0 Flash,用一次性能的“降维打击”,让 PDF 转文本、并行摄取、快速问答不再遥不可及。

首先将每个 PDF 页面转换为图像,然后将它们发送以进行 OCR,只是为将原始文本转换为可用的 HTML 或 Markdown。接下来,您仔细检测并重新构建每个表,将内容切成块以进行语义检索,最后将它们全部插入到矢量数据库中,整个成本是非常高。

Google 的 Gemini 2.0 Flash就可以简化整个过程。

在一个步骤中捆绑 OCR 和分块,而成本只是其中的一小部分。这篇文章恰恰探讨这种可能性。我将展示 Gemini 2.0 Flash 如何一次性将 PDF 转换为分块的、可用于 Markdown 的文本,让您摆脱冗余的多步骤。然后,我们将这些数据存储在可扩展矢量数据库,用于快速矢量搜索。

本指南介绍如何:

  • 使用 Gemini 2.0 Flash将 PDF 页面直接转换为分块文本;
  • 将块存储在矢量数据库,用于快速搜索;
  • 在 RAG 工作流程中将它们全部联系在一起;

这是目前的模型价格

如果您不需要原始 PDF 中的边界框,这种方法比旧的 OCR 管道简单得多,成本也低得多。

传统的 PDF 摄取问题

为什么 PDF 摄取如此困难?

  1. 复杂布局 :多列文本、脚注、侧边栏、图像或扫描的表单。
  2. 表格提取 :传统的 OCR 工具通常会将表格展平为杂乱的文本。
  3. 高成本 : 使用 GPT-4o 或其他大型 LLM 会很快变得昂贵,尤其是在您处理数百万个页面时。
  4. 多种工具 :您可以运行 Tesseract for OCR、用于表检测的布局模型、用于 RAG 的单独分块策略等。

许多团队最终会得到一个脆弱且昂贵的巨大管道。新方法是:“只需将 PDF 页面作为图像显示给多模态 LLM,提示它分块,然后看着奇迹发生。”

这就是 Gemini 2.0 Flash的用武之地。

为什么选择 Gemini 2.0 Flash?

成本 :~6,000 页/美元(使用批量调用和最少的输出令牌)。这很容易比许多其他解决方案(GPT-4、专门的 OCR 供应商等)便宜 5-30 倍。

准确性 :标准文本的保真度令人惊讶。大多数错误是微小的结构差异,尤其是对于表格。

最大的缺失部分是边界框数据。如果您需要将像素完美的叠加层重新覆盖到 PDF 上,Gemini 的边界框生成仍然远非准确。但是,如果您主要关心是基于文本的检索或摘要,那么它更便宜、更快、更容易。

端到端架构

分步代码

1)安装依赖并创建基本表

!apt-get update

!apt-get install -y poppler-utils

!pip install -q google-generativeai kdbai-client sentence-transformers pdf2image

import os

import kdbai_client as kdbai

from sentence_transformers import SentenceTransformer

# start session with KDB.AI Server

session = kdbai.Session(endpoint=”http://localhost:8082″)

db = session.database(‘default’)

print(“Connected to KDB.AI:”, db)

您可以注册矢量数据库。免费 AI 服务器在这里:
https://trykdb.kx.com/kdbai/signup/

2)创建 Vector Table

# Define KDB.AI table schema

VECTOR_DIM = 384 # we’ll use all-MiniLM-L6-v2 for embeddings

schema = [

{“name”: “id”, “type”: “str”},

{“name”: “text”, “type”: “str”},

{“name”: “vectors”, “type”: “float32s”}

] # Build a simple L2 distance index

index = [

{ “name”: “flat_index”,

“type”: “flat”,

“column”: “vectors”,

“params”: {“dims”: VECTOR_DIM, “metric”: “L2”}

} ]

table_name = “pdf_chunks”

try:

db.table(table_name).drop

except kdbai.KDBAIException:

pass

table = db.create_table(table_name, schema=schema, indexes=index)

print(f”Table ‘{table_name}’ created.”)

3)将 PDF 页面转换为图像

# Convert PDF to images

import requests

from pdf2image import convert_from_bytes

import base64

import io

pdf_url = “https://arxiv.org/pdf/2404.08865″ # example PDF

resp = requests.get(pdf_url)

pdf_data = resp.content

pages = convert_from_bytes(pdf_data)

print(f”Converted {len(pages)} PDF pages to images.”)

# We’ll encode the images as base64 for easy sending to Gemini

images_b64 = {}

for i, page in enumerate(pages, start=1):

buffer = io.BytesIO

page.save(buffer, format=”PNG”)

image_data = buffer.getvalue

b64_str = base64.b64encode(image_data).decode(“utf-8”)

images_b64[i] = b64_str

4)调用 Gemini 2.0 Flash 进行 OCR + 分块

# Configure Gemini & define chunking prompt

import google.generativeai as genai

GOOGLE_API_KEY = “YOUR_GOOGLE_API_KEY”

genai.configure(api_key=GOOGLE_API_KEY)

model = genai.GenerativeModel(model_name=”gemini-2.0-flash”)

print(“Gemini model loaded:”, model)

CHUNKING_PROMPT = “””\

OCR the following page into Markdown. Tables should be formatted as HTML.

Do not surround your output with triple backticks.

Chunk the document into sections of roughly 250 – 1000 words.

Surround each chunk with <chunk> and </chunk> tags.

Preserve as much content as possible, including headings, tables, etc.

5)使用一个 prompt 处理每个页面

# OCR + chunking function

import re

def process_page(page_num, image_b64):

# We’ll create the message payload:

payload = [

{ “inline_data”: {“data”: image_b64, “mime_type”: “image/png”}

},

{ “text”: CHUNKING_PROMPT

} ]

try:

resp = model.generate_content(payload)

text_out = resp.text

except Exception as e:

print(f”Error processing page {page_num}: {e}”)

return

# parse <chunk> blocks

chunks = re.findall(r”<chunk>(.*?)</chunk>”, text_out, re.DOTALL)

if not chunks:

# fallback if model doesn’t produce chunk tags

chunks = text_out.split(“\n\n”)

results =

for idx, chunk_txt in enumerate(chunks):

# store ID, chunk text

results.append({

“id”: f”page_{page_num}_chunk_{idx}”,

“text”: chunk_txt.strip

})

return results

all_chunks =

for i, b64_str in images_b64.items:

page_chunks = process_page(i, b64_str)

all_chunks.extend(page_chunks)

print(f”Total extracted chunks: {len(all_chunks)}”)

6)在矢量数据库中嵌入块和存储

# Embedding & Insertion

embed_model = SentenceTransformer(“all-MiniLM-L6-v2”)

chunk_texts = [ch[“text”] for ch in all_chunks]

embeddings = embed_model.encode(chunk_texts)

embeddings = embeddings.astype(“float32”)

import pandas as pd

row_list =

for idx, ch_data in enumerate(all_chunks):

row_list.append({

“id”: ch_data[“id”],

“text”: ch_data[“text”],

“vectors”: embeddings[idx].tolist

})

df = pd.DataFrame(row_list)

table.insert(df)

print(f”Inserted {len(df)} chunks into ‘{table_name}’.”)

7)查询和构建 RAG 流程

相似度搜索

# Vector query for RAG

user_query = “How does this paper handle multi-column text?”

qvec = embed_model.encode(user_query).astype(“float32”)

search_results = table.search(vectors={“flat_index”: [qvec]}, n=3)

retrieved_chunks = search_results[0][“text”].tolist

context_for_llm = “\n\n”.join(retrieved_chunks)

print(“Retrieved chunks:\n”, context_for_llm)

8)最终生成

# SNIPPET 8: RAG generation

final_prompt = f”””Use the following context to answer the question:

Context:

{context_for_llm}

Question: {user_query}

Answer:

“””

resp = model.generate_content(final_prompt)

print(“\n=== Gemini’s final answer ===”)

print(resp.text)

最后的思考

  1. 用户反馈 :真实用户已经用 Gemini 取代了专门的 OCR 供应商进行 PDF 摄取,从而节省了时间和成本
  2. 当边界框很重要时 :如果您必须精确跟踪 PDF 上每个块的位置,您将需要一种混合方法。
  3. 可扩展性 :制作数百万个页面?确保批量调用和限制令牌。这就是您达到 ~6,000 页/美元的最佳位置的方式。单页调用或大型输出的成本更高。
  4. 简单性:您可以跳过六个微服务或 GPU 管道。对许多人来说,仅此一项就是一种巨大的解脱。

本文由 @来学习一下 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

相关推荐

oracle数据导入导出_oracle数据导入导出工具

关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...

继续学习Python中的while true/break语句

上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个...

python continue和break的区别_python中break语句和continue语句的区别

python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...

简单学Python——关键字6——break和continue

Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...

2-1,0基础学Python之 break退出循环、 continue继续循环 多重循

用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...

Python 中 break 和 continue 傻傻分不清

大家好啊,我是大田。...

python中的流程控制语句:continue、break 和 return使用方法

Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...

L017:continue和break - 教程文案

continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...

作为前端开发者,你都经历过怎样的面试?

已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...

面试被问 const 是否不可变?这样回答才显功底

作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...

2023金九银十必看前端面试题!2w字精品!

导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。...

前端面试总结_前端面试题整理

记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录...

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

添加图片注释,不超过140字(可选)...

今年最常见的前端面试题,你会做几道?

在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...