openPR Recherche & Suche
Presseinformation

10 Millionen/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster

20.11.201511:59 UhrIT, New Media & Software
Bild: 10 Millionen/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster
OCR-Cluster mit 48-CPU-Kernen in einem 3-Liter mITX-Gehäuse mit 250'000 Seiten Tagesleistung
OCR-Cluster mit 48-CPU-Kernen in einem 3-Liter mITX-Gehäuse mit 250'000 Seiten Tagesleistung

(openPR) Egg, 20. November 2015: Mit dem ArchivistaBox OCR-Cluster (Rechnerverbund) können Bilddaten vollautomatisiert mit Texterkennung (OCR) in durchsuchbare PDF- bzw. Text-Dateien umgewandelt werden. Dank skalierbarer Cluster-Technologie von 24 bis 1920 Prozessoren (CPU-Kerne) ist der ArchivistaBox OCR-Cluster in der Lage, zwischen 120'000 und 10 Millionen Bild-Dateien pro Tag in durchsuchbare Textdaten (OCR) umzuwandeln.

Der OCR-Cluster wird durch stromsparende ARM-Prozessoren (CPUs) angetrieben. So findet ein 48-CPU-Cluster Platz in einem 3-Liter mITX-Gehäuse und benötigt unter Last in etwa 75 Watt an Energie. Dabei werden pro Minute 180 Seiten verarbeitet. Dies ergibt eine Tagesleistung von 250'000 Seiten. Die Verwaltung des OCR-Clusters erfolgt webbasiert. Bei der Auslieferung sind die notwendigen IP-Adressen der Knoten bereits eingetragen, die weitere Konfiguration wie gewünschte Sprachen, Textlayout, Scan-Profile und Netzlaufwerke werden ebenfalls per Web-Interface vorgenommen.

Um die Erkennung zu steuern, steht optional ein API (Application Programming Interface) mit HTTP-Aufrufen zur Verfügung. Ferner kann die Texterkennung direkt auf der Konsole gestartet und überwacht werden. Die zu verarbeitenden Dokumente können per FTP (Datei-Upload), SMB (Netzlaufwerk), HTTP bzw. HTTPS (Web) oder mittels angeschlossener Dokumenten-Scanner zur Verarbeitung herangezogen werden.

Bei der Texterkennung, die auf Tesseract 3.0x basiert, stehen mehr als 50 Sprachen zur Verfügung, darunter alte Zeichensätze wie Fraktur und/oder Gothik. Zusätzliche Sprachen und/oder spezielle Zeichensätze lassen sich jederzeit integrieren. Die Auslieferung der erkannten Texte erfolgt über das integrierte Dokumenten-Management-System ArchivistaDMS. Optional können durchsuchbare PDF-Dateien direkt auf externe Laufwerke exportiert werden.

Ausgeliefert werden die OCR-Cluster in Form von Mini-Rechnern (je ca. 100 Gramm schwer) oder (optional) montiert in klassichen Gehäusen bis hin zur Rack-Bauweise. Die Preisstruktur des OCR-Clusters richtet sich nach der Anzahl CPU-Kerne. Ein einzelner Knoten enthält acht CPU (Prozessoren) und entspricht einer ArchivistaBox mit dem gewünschten Leistungsumfang. So kostet z.B. ein OCR-Cluster mit 24 CPU-Kernen und einer Tagesleistung von 120'000 Seiten 981,18 EURO (3 x ArchivistaBox Dolder). Die für den OCR-Cluster notwendigen Knoten (ArchivistaBoxen) können unter shop.archivista.ch bestellt werden.

Diese Pressemeldung wurde auf openPR veröffentlicht.

Verantwortlich für diese Pressemeldung:

News-ID: 880447
 622

Kostenlose Online PR für alle

Jetzt Ihren Pressetext mit einem Klick auf openPR veröffentlichen

Jetzt gratis starten

Pressebericht „10 Millionen/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster“ bearbeiten oder mit dem "Super-PR-Sparpaket" stark hervorheben, zielgerichtet an Journalisten & Top50 Online-Portale verbreiten:

PM löschen PM ändern
Disclaimer: Für den obigen Pressetext inkl. etwaiger Bilder/ Videos ist ausschließlich der im Text angegebene Kontakt verantwortlich. Der Webseitenanbieter distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen. Wenn Sie die obigen Informationen redaktionell nutzen möchten, so wenden Sie sich bitte an den obigen Pressekontakt. Bei einer Veröffentlichung bitten wir um ein Belegexemplar oder Quellenennung der URL.

Pressemitteilungen KOSTENLOS veröffentlichen und verbreiten mit openPR

Stellen Sie Ihre Medienmitteilung jetzt hier ein!

Jetzt gratis starten

Weitere Mitteilungen von Archivista GmbH

Bild: AVMultimedia mit SearXBild: AVMultimedia mit SearX
AVMultimedia mit SearX
Egg, 14. September: AVMultimedia und die ArchivistaBoxen erhalten neu eine eigene Suchmaschine. Mit der Integration von SearX als lokale Instanz kann ungetrackt in über 80 Suchmaschinen recherchiert werden. Dank der Integration von SearX in den AVMultimedia-Desktop und in die ArchivistaBoxen kann neu bei mehreren Anbietern gleichzeitig gesucht werden. SearX arbeitet als Open Source Meta-Suchmaschine lokal auf dem Desktop. Bei der ArchivistaBox ist es zudem möglich, eine eigene Intranet-Instanz von SearX zu betreiben. Zwar gibt es auch öffent…
Bild: Bis zu 5'000 Stunden 4K-Movies mit ArchivistaBox 2020/V managenBild: Bis zu 5'000 Stunden 4K-Movies mit ArchivistaBox 2020/V managen
Bis zu 5'000 Stunden 4K-Movies mit ArchivistaBox 2020/V managen
Egg, 20. Mai 2020: Mit der ArchivistaBox 2020/V können neu Archive mit mehreren tausend Stunden 4K-Material erstellt und verwaltet werden. Die ArchivistaBox macht damit den Schritt vom Dokumenten Management System (DMS) hin zum Multimedia Management System (MMS). Im Unterschied zu einem klassischen DMS erfordert das Management von multimedialen Inhalten (MMS) deutlich mehr Bandbreite. Daher speichert die ArchivistaBox neu die Strukturdaten auf einer schnellen NVME-Platte. Die Video-Daten werden kostengünstig auf herkömmlichen Festplatten vor…

Das könnte Sie auch interessieren:

Formularerkennung mit ArchivistaBox 2007/VIII
Formularerkennung mit ArchivistaBox 2007/VIII
… Rechnungsnummer) millimetergenau ermitteln. Dies ermöglicht bei gedruckten Belegen eine Erkennungsrate von weit über 99,99 Prozent. Die ArchivistaBox 2007/VIII enthält die bekannte Texterkennungsengine FineReader. Daneben werden neu zwei OpenSource Texterkennungspakete mitgeliefert. Dies ist einmal Ocrad (Version 0.17) sowie weiter Tesseract (Version 2.0). …
Bild: 25 Tonnen Papier auf dem Smartphone mit der ArchivistaBoxBild: 25 Tonnen Papier auf dem Smartphone mit der ArchivistaBox
25 Tonnen Papier auf dem Smartphone mit der ArchivistaBox
… an die ArchivistaBox-Smartphone angeschlossen werden. So lassen sich pro Minute bis zu 200 Seiten scannen. Egal ob mit Kamera oder Dokumenten-Scanner, die anschliessende Texterkennung (OCR) läuft im Hintergrund auf dem Smartphone ab, ebenso werden durchsuchbare PDF-Dokumente automatisch erstellt, ein Zugriff ins Internet findet dabei nicht statt. Die …
Bild: Vom PDF 1:1 ins Word-FormatBild: Vom PDF 1:1 ins Word-Format
Vom PDF 1:1 ins Word-Format
PDF-2-Word X5 Premium wandelt PDF originalgetreu ins Word-Format um. Die OCR Texterkennung liest Texte auch auf eingescannten Bildern im PDF, um diese nach Bedarf zu ändern. Um jedes PDF ganz nach Bedarf zu bearbeiten, wandelt PDF-2-Word X5 es ins Format für Microsoft Word um. Formatierung, Struktur und Layout bleiben 1:1 erhalten. Texte, Bilder und …
Bild: Mit ABBYY 225 Jahre Zeitgeschichte erschließenBild: Mit ABBYY 225 Jahre Zeitgeschichte erschließen
Mit ABBYY 225 Jahre Zeitgeschichte erschließen
… Fraktur) vor. Diese können durch den Einsatz des ABBYY FineReader XIX ab Ende September 2005 per Volltextsuche erschlossen werden. FineReader XIX ist eine Texterkennungs-Software (Optical Charater Recognition, OCR), die auch alte europäische Sprachen bzw. Frakturschrift verarbeiten kann. „Das Projekt stellt in vielen Bereichen eine Herausforderung dar. …
Bild: ScanIt 1.0 für Windows: Neues Scan-Programm mit OCR-Texterkennung, Kommentarfunktion und PDF-ExportBild: ScanIt 1.0 für Windows: Neues Scan-Programm mit OCR-Texterkennung, Kommentarfunktion und PDF-Export
ScanIt 1.0 für Windows: Neues Scan-Programm mit OCR-Texterkennung, Kommentarfunktion und PDF-Export
… Dokumente in die digitale Welt? Das neue Windows-Programm ScanIt aus dem Hause JBSoftware (MemoMaster) scannt Dokumente aller Art, bietet eine optionale OCR-Texterkennung und speichert das Ergebnis als PDF-Dokument. Zur Sicherheit der Dokumente können die PDF-Dateien verschlüsselt und mit einem Kennwort versehen werden. Kurz zusammengefasst: - Windows-Tool …
Bild: Dokumente auf Knopfdruck: ArchivistaBox 2006/XIBild: Dokumente auf Knopfdruck: ArchivistaBox 2006/XI
Dokumente auf Knopfdruck: ArchivistaBox 2006/XI
… ins Archiv. Neben dem bewährten Konzept, eine auf OpenSource-Technologie basierende vollintegrierte DMS-Lösung anzubieten, bietet die ArchivistaBox auch einen zuschaltbaren Texterkennungs-Server, der sämtliche Dokumente direkt als durchsuchbare PDF-Dateien automatisch zur Verfügung stellt. Die OCR-Technologie basiert auf FineReader-Technologie, neu ab …
Bild: Start-up SEEWARA GmbH integriert Docutain Data Capture SDK zur Belegerfassung in ihre Buchhaltungs-AppBild: Start-up SEEWARA GmbH integriert Docutain Data Capture SDK zur Belegerfassung in ihre Buchhaltungs-App
Start-up SEEWARA GmbH integriert Docutain Data Capture SDK zur Belegerfassung in ihre Buchhaltungs-App
… jeglicher Art entlasten.Das Docutain Document Scanner SDK ermöglicht es, Belege und Rechnungen schnell einzuscannen und mithilfe von Perspektivkorrektur optimal darzustellen. Die intelligente Texterkennung des Docutain OCR SDK liest die erkannten Informationen des Beleges automatisch aus und stellt zuverlässig sicher, dass Belege, die grundsätzlich nicht …
Bild: Office-n-PDF 4.0: Dokumentenmanagement mit erweiterter Mail-Archivierung und beschleunigter TexterkennungBild: Office-n-PDF 4.0: Dokumentenmanagement mit erweiterter Mail-Archivierung und beschleunigter Texterkennung
Office-n-PDF 4.0: Dokumentenmanagement mit erweiterter Mail-Archivierung und beschleunigter Texterkennung
… zu archivieren und im einheitlichen PDF-Format zu verwalten. Die neue Version 4 unterstützt bei der E-Mail-Archivierung nun noch mehr Programme, bringt die OCR-Texterkennung bei gescannten Dokumenten auf ein neues Niveau und führt ein Wiedervorlagesystem ein. – Update: Office-n-PDF 4 für Windows ist da – PDF-basiertes Dokumentenarchiv – Wandelt Dokumente …
Bild: ABBYY FineReader Engine 8.1 umfassendstes OCR Software Development Kit auf dem MarktBild: ABBYY FineReader Engine 8.1 umfassendstes OCR Software Development Kit auf dem Markt
ABBYY FineReader Engine 8.1 umfassendstes OCR Software Development Kit auf dem Markt
… Wörter nicht durch Leerzeichen voneinander getrennt. ABBYYs Technologie erkennt einzelne Buchstaben, trennt zusammenhängende Textpassagen voneinander. Die Software bietet so zuverlässige Texterkennung mit bis zu 50 Prozent genaueren Erkennungsergebnissen als Thai-OCR anderer Anbieter. Hebräisch wird weltweit von neun Millionen Menschen gesprochen und …
ArchivistaBox 2007/III mit AJAX-Technologie
ArchivistaBox 2007/III mit AJAX-Technologie
… ArchivistaBox redundant und autonom von bestehenden Lösungen betreiben zu können, ist das ArchivistaBox 2007/III daher prädestiniert für medizinaltechnische Anwendungen. Mit Ausnahme der FineReader-Texterkennung untersteht die gesamte ArchivistaBox der GPL und liegt quelloffen vor. Damit das lästige Kompilieren der Sourcen entfällt, kann die ArchivistaBox (inkl. …
Sie lesen gerade: 10 Millionen/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster