Mistral AI 推出 OCR 4：不只辨識文字，更懂文件結構

Mistral AI 發布了其文件智慧模型的最新版本 OCR 4，旨在改變企業從文件中提取和處理資訊的方式。與傳統光學字元辨識（OCR）系統僅將圖片轉換為文字不同，OCR 4 會回傳整個文件的結構化表示，其中包含邊界框、區塊類型分類，以及每個字的信心度分數。這款第四代模型代表 Mistral 的一大躍進，該公司自成立以來一直在穩步改進其 OCR 能力。新版本針對企業使用場景進行了最佳化，在這些場景中，準確性和結構化至關重要。「文件是企業的命脈，但它們通常雜亂無章且缺乏結構，」一位 Mistral AI 高層表示。「OCR 4 超越了原始的文字擷取。它能理解版面配置，識別標題、段落、表格和圖形，並為每個字提供信心度分數。這使得下游系統能夠就資料品質做出明智的決策。」該模型對於處理大量文件的產業特別有用，例如金融、法律、醫療保健和物流業。舉例來說，保險公司可以使用 OCR 4 自動處理理賠申請表，不僅擷取文字，還能擷取欄位之間的空間關係。律師事務所則可以將合約數位化，並精確標示簽名和條款的邊界框。 Mistral 也改進了模型處理具有挑戰性文件的能力，包括光線不佳、角度歪斜或字體複雜的文件。逐字信心度分數讓開發者可以標記不確定的擷取結果，以供人工審查，從而在不犧牲自動化的情況下減少錯誤。此次發布正值企業 AI 市場競爭日益激烈之際，Google、微軟和亞馬遜等公司都提供文件 AI 服務。Mistral 透過專注於開源友善的授權和在地部署選項來實現差異化，這對有嚴格資料主權要求的組織極具吸引力。 OCR 4 現已可透過 Mistral 的 API 使用，也可作為可下載模型用於自託管環境。該公司計劃持續迭代，未來版本預計將支援更多語言和文件類型。

Mistral AI 推出 OCR 4：不只辨識文字，更懂文件結構

相關資訊