Wie kann ich mit PHP und Alibaba Cloud OCR schnell Text aus PDF-Dateien extrahieren?-PHP-Tutorial-php.cn

Wie kann ich mit PHP und Alibaba Cloud OCR schnell Text aus PDF-Dateien extrahieren?

王林

Freigeben： 2023-07-19 17:14:01

Original

1846 Leute haben es durchsucht

Wie extrahiere ich schnell Text aus PDF-Dateien mit PHP und Alibaba Cloud OCR?

Einführung:
Mit dem Aufkommen des digitalen Zeitalters werden immer mehr Dokumente im PDF-Format gespeichert. In einigen Szenarien müssen wir Text aus PDF-Dateien zur weiteren Verarbeitung und Analyse extrahieren, z. B. zur automatisierten Dokumentenverarbeitung, Informationsextraktion usw. In diesem Artikel wird erläutert, wie Sie mit PHP und dem Alibaba Cloud OCR-Dienst schnell Text aus PDF-Dateien extrahieren.

Schritt 1: Alibaba Cloud OCR-Dienst konfigurieren
Zuerst müssen wir den OCR-Dienst in Alibaba Cloud registrieren und aktivieren. Besorgen Sie sich die Zugriffsschlüssel-ID und das Zugriffsschlüsselgeheimnis und erstellen Sie eine OCR-Anwendung, um einen Schlüssel unter der Anwendung zu generieren. Diese Informationen werden im nachfolgenden Code verwendet.

Schritt 2: PHP-SDK installieren und konfigurieren
Alibaba Cloud stellt eine PHP-Version des SDK zur Verfügung. Wir können Composer verwenden, um das SDK schnell zu installieren und zu konfigurieren. Führen Sie den folgenden Befehl im Terminal aus:

composer require alibabacloud/ocr-sdk-php

Nach dem Login kopieren

Fügen Sie nach Abschluss der Installation den folgenden Code zum Projekt hinzu, führen Sie das SDK ein und konfigurieren Sie die Zugriffsschlüssel-ID und das Zugriffsschlüsselgeheimnis:

<?php
use AlibabaCloudClientAlibabaCloud;
use AlibabaCloudClientExceptionClientException;
use AlibabaCloudClientExceptionServerException;

AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret')
            ->regionId('cn-shanghai')
            ->asDefaultClient();
?>

Nach dem Login kopieren

Ändern Sie „Ihren-Zugriffsschlüssel-“ id“ im obigen Code und „your-access-key-secret“ mit Ihren tatsächlichen Informationen.

Schritt 3: Verwenden Sie den OCR-Dienst, um PDF-Text zu extrahieren
Im PHP-Skript können wir die von Alibaba Cloud OCR bereitgestellte Schnittstelle „ocr_document_recognize“ verwenden, um die PDF-Datei zu identifizieren und den darin enthaltenen Text abzurufen.

Das Folgende ist ein Beispielcode:

try {
    $result = AlibabaCloud::rpc()
              ->product('ocr')
              ->scheme('https')
              ->version('2019-12-30')
              ->action('ocr_document_recognize')
              ->method('POST')
              ->host('ocr.cn-shanghai.aliyuncs.com')
              ->options([
                'query' => [
                  'RegionId' => 'cn-shanghai',
                  'AccessKeyId' => 'your-access-key-id',
                  'AccessKeySecret' => 'your-access-key-secret',
                ],
              ])
              ->request();
    
    // 解析返回结果
    $text = '';
    foreach ($result['Data']['Regions'] as $region) {
        foreach ($region['Lines'] as $line) {
            $text .= $line['Text'] . "
";
        }
    }
    
    // 打印提取的文字
    echo $text;

} catch (ClientException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
} catch (ServerException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
}

Nach dem Login kopieren

Ersetzen Sie „Ihre-Zugriffsschlüssel-ID“ und „Ihr-Zugriffsschlüssel-Geheimnis“ im obigen Code durch Ihre tatsächlichen Informationen.

Durch die oben genannten Schritte können wir PHP und den Alibaba Cloud OCR-Dienst verwenden, um schnell Text aus PDF-Dateien zu extrahieren. Sie können den extrahierten Text entsprechend den tatsächlichen Anforderungen weiterverarbeiten und analysieren.

Zusammenfassung:
In diesem Artikel wird erläutert, wie Sie mit PHP und dem Alibaba Cloud OCR-Dienst schnell Text aus PDF-Dateien extrahieren. Durch die Konfiguration des Alibaba Cloud OCR-Dienstes und die Installation des PHP-SDK können wir die von Alibaba Cloud OCR bereitgestellte Schnittstelle verwenden, um PDF-Dateien zu identifizieren und darin Textinformationen zu extrahieren. Auf diese Weise können wir problemlos automatisierte Dokumentenverarbeitungs- und Informationsextraktionsvorgänge durchführen, um die Arbeitseffizienz zu verbessern.

Das obige ist der detaillierte Inhalt vonWie kann ich mit PHP und Alibaba Cloud OCR schnell Text aus PDF-Dateien extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!