Product Launch2026-06-26
VentureBeat
Mistral AI 推出 OCR 4:不只辨識文字,更懂文件結構
Mistral AI 發布了其文件智慧模型的最新版本 OCR 4,旨在改變企業從文件中提取和處理資訊的方式。與傳統光學字元辨識(OCR)系統僅將圖片轉換為文字不同,OCR 4 會回傳整個文件的結構化表示,其中包含邊界框、區塊類型分類,以及每個字的信心度分數。
這款第四代模型代表 Mistral 的一大躍進,該公司自成立以來一直在穩步改進其 OCR 能力。新版本針對企業使用場景進行了最佳化,在這些場景中,準確性和結構化至關重要。
「文件是企業的命脈,但它們通常雜亂無章且缺乏結構,」一位 Mistral AI 高層表示。「OCR 4 超越了原始的文字擷取。它能理解版面配置,識別標題、段落、表格和圖形,並為每個字提供信心度分數。這使得下游系統能夠就資料品質做出明智的決策。」
該模型對於處理大量文件的產業特別有用,例如金融、法律、醫療保健和物流業。舉例來說,保險公司可以使用 OCR 4 自動處理理賠申請表,不僅擷取文字,還能擷取欄位之間的空間關係。律師事務所則可以將合約數位化,並精確標示簽名和條款的邊界框。
Mistral 也改進了模型處理具有挑戰性文件的能力,包括光線不佳、角度歪斜或字體複雜的文件。逐字信心度分數讓開發者可以標記不確定的擷取結果,以供人工審查,從而在不犧牲自動化的情況下減少錯誤。
此次發布正值企業 AI 市場競爭日益激烈之際,Google、微軟和亞馬遜等公司都提供文件 AI 服務。Mistral 透過專注於開源友善的授權和在地部署選項來實現差異化,這對有嚴格資料主權要求的組織極具吸引力。
OCR 4 現已可透過 Mistral 的 API 使用,也可作為可下載模型用於自託管環境。該公司計劃持續迭代,未來版本預計將支援更多語言和文件類型。