1、Dezember 2009 Normenausschuss Informationstechnik und Anwendungen (NIA) im DINPreisgruppe 14DIN Deutsches Institut fr Normung e.V. Jede Art der Vervielfltigung, auch auszugsweise, nur mit Genehmigung des DIN Deutsches Institut fr Normung e.V., Berlin, gestattet.ICS 03.240; 35.240.60!$RX4“1475317www.
2、din.deDVornormDIN CEN/TS 15873Postalische Dienstleistungen Offene Normschnittstelle Adressdateiformat fr die Generierung von Wrterbchern inOCR/Videocodier-Systemen;Englische Fassung CEN/TS 15873:2009Postal Services Open Standard Interface Address Data File Format for OCR/VCS Dictionary Generation;En
3、glish version CEN/TS 15873:2009Services posteaux Interface de standard ouvert Format de fichiers de donnes dadresses pour la gnration du dictionnaire OCR/VCS;Version anglaise CEN/TS 15873:2009Alleinverkauf der Normen durch Beuth Verlag GmbH, 10772 Berlin www.beuth.deGesamtumfang 30 SeitenDIN CEN/TS
4、15873:2009-12 Nationales Vorwort Dieses Dokument (CEN/TS 15873:2008) wurde vom Technischen Komitee CEN/TC 331 Postalische Dienst-leistungen“ erarbeitet, dessen Sekretariat vom NEN (Niederlande) gehalten wird. Das zustndige deutsche Gremium ist der NA 043-03-04 AA Postalische Dienstleistungen“ des No
5、rmen-ausschusses Informationstechnik und Anwendungen (NIA) im DIN. Eine europische Technische Spezifikation (CEN/TS) ist gleichbedeutend mit einer Vornorm des Deutschen Normenwerkes. Eine Vornorm ist das Ergebnis einer Normungsarbeit, das wegen bestimmter Vorbehalte zum Inhalt oder wegen des gegenbe
6、r einer Norm abweichenden Aufstellungsverfahrens vom DIN noch nicht als Norm herausgegeben wird. Zur vorliegenden Vornorm wurde kein Entwurf verffentlicht. Erfahrungen mit dieser Vornorm sind erbeten vorzugsweise als Datei per E-Mail an NIAdin.de in Form einer Tabelle. Die Vorlage dieser Tabelle kan
7、n im Internet unter http:/www.din.de/stellungnahme abgerufen werden; oder in Papierform an den Normenausschuss Informationstechnik und Anwendungen (NIA) im DIN Deutsches Institut fr Normung e.V., 10772 Berlin. Der NIA-03-04 Postalische Dienstleistungen“ hat auf seiner Sitzung am 2008-11-11 beschloss
8、en, zu diesem auf die deutsche Sprachfassung zu verzichten. Die Entscheidung wurde in Kenntnis und in bereinstimmung der im DIN anzuwendenden Arbeitsanweisung Verzicht auf die Deutsche Sprachfassung (AA-021)“ getroffen. Dieser Beschluss wurde vom NIA-GLA unter expliziter Zustimmung der staatlichen V
9、ertreter besttigt, da die reprsentative deutsche Fachffentlichkeit ber gengend englische Sprachkenntnisse verfgt. Die erforderliche Genehmigung der DIN-Geschftsleitung wurde eingeholt. Um den deutschen Fachkreisen die Anwendung dieses Dokuments zu erleichtern wird die folgende inhaltliche Einfhrung
10、in deutscher Sprache ins nationale Vorwort aufgenommen. Von Postunternehmen geht ein zunehmender Bedarf zur freien Kombination von Komponenten verschiedener Hersteller in Briefsortieranlagen aus. Dies dient zur Optimierung der Eigenschaften dieser Systeme. In der Vergangenheit fhrte dies zu projekts
11、pezifischen Schnittstellen, die zwischen dem Postunternehmen und den Herstellern vereinbart wurden. Diese Schnittstellen wurden von den Herstellern erstellt und ber eine gewisse, vorher vereinbarte Zeitspanne gepflegt. Dieser Ansatz hat verschiedene Nachteile: die Schnittstelle wird aus einer Schnit
12、tstelle entwickelt, die nicht zur ffnung vorgesehen war; die Schnittstelle wird nur fr ein Projekt entwickelt und ist daher nur in diesem Projekt einsetzbar; jeder an dem Projekt teilnehmende Hersteller muss diese Schnittstelle implementieren (mehrfache Entwicklungskosten); die Erfahrung zeigt, dass
13、 die Integration dieser projektspezifischen Schnittstellen komplex und aufwndig ist; projektspezifische Schnittstellen werden nicht in das Produkt integriert und damit nach der vertraglich vereinbarten Pflegeperiode fr Produkterweiterungen nicht mehr einsetzbar. 2 Vornorm DIN CEN/TS 15873:2009-12 Di
14、es hat zu herstellerspezifischen offenen Schnittstellen“ gefhrt. Diese Schnittstellen haben weiter den Nachteil, nur von einem Hersteller untersttzt zu werden. In einer Gruppe von Postunternehmen und Herstellern wurde entschieden, den Weg der offenen standardisierten Schnittstellen“ zu verfolgen. Di
15、ese Schnittstellen werden von den Herstellern in ihren Produkten eingesetzt und von den Postunternehmen spter beauftragt. Die Vorteile dieser Schnittstellen sind: Einbindung in die europische und internationale Normung im CEN/TC 331 und dem Weltpostverein (UPU) und damit gewhrleistete Aktualisierung
16、 nach dem Stand der Technik; Zustimmung und Implementierung durch die wichtigsten Hersteller; Zustimmung durch die Postunternehmen und daher Bestandteil von Ausschreibungen; Einsparungen durch geringere Kosten in der projektspezifischen Entwicklung, Integration und Pflege, womit die hheren initialen
17、 Kosten mehr als kompensiert werden; Verstrkung der Produktverbesserungen durch Vergleichbarkeit der Hersteller. Dieses Dokument definiert das Format fr Adressdateien zur Erzeugung von Wrterbchern in OCR- und Videocodier-Systemen. Die Ergebnisse von OCR Systemen und Eingaben in Videocodiersystemen m
18、ssen mit realen“ existierenden Adressen abgeglichen werden, um hohe Erkennungsraten und geringe Fehlerkennungsraten zu erreichen. Hierfr stellen die Postunternehmen den Herstellern von OCR- und Videocodiersystemen Adress-verzeichnisse zur Verfgung. Bisher stellt jedes Postunternehmen die (Quell-)Adr
19、essverzeichnisse im jeweils eigenen Format zur Verfgung. In typischen Systemen der Postautomatisierung werden diese Dateien mit Hilfe eines Software-Programmes in eine ladbare Datei umgesetzt. Diese Datei normalerweise bezeichnet als Wrterbuch-Datei“ ist stark komprimert und enthlt Zugriffstabellen
20、fr die spezifische Erkennungs-software. Diese hochoptimierten Dateien sind herstellerspezifisch. Dieses Dokument definiert das Format der Datei zur bergabe zwischen dem Postunternehmen und dem oder den Herstellern des OCR- und Videocodier-Systems. Es war das Ziel, das Dateiformat so zu definieren, d
21、ass alle notwendigen Informationen zur Untersttzung der OCR- und Videocodier-Software enthalten sind. Dies gilt auch fr Daten fr spezielle Applikationen wie das automatisierte Nachsenden von Post. 3 Vornorm DIN CEN/TS 15873:2009-12 4 Leerseite Vornorm TECHNICAL SPECIFICATION SPCIFICATION TECHNIQUE T
22、ECHNISCHE SPEZIFIKATION CEN/TS 15873 March 2009 ICS 03.240; 35.240.60 English Version Postal Services Open Standard Interface Address Data File Format for OCR/VCS Dictionary GenerationServices postaux Interface de standard ouvert Format de fichiers de donnes dadresses pour la gnration du dictionnair
23、e OCR/VCS Postalische Dienstleistungen Offene Normschnittstelle Adressdateiformat fr die Generierung von Wrterbchern in OCR/Videocodier-Systemen This Technical Specification (CEN/TS) was approved by CEN on 1 March 2009 for provisional application. The period of validity of this CEN/TS is limited ini
24、tially to three years. After two years the members of CEN will be requested to submit their comments, particularly on the question whether the CEN/TS can be converted into a European Standard. CEN members are required to announce the existence of this CEN/TS in the same way as for an EN and to make
25、the CEN/TS availablepromptly at national level in an appropriate form. It is permissible to keep conflicting national standards in force (in parallel to the CEN/TS)until the final decision about the possible conversion of the CEN/TS into an EN is reached. CEN members are the national standards bodie
26、s of Austria, Belgium, Bulgaria, Cyprus, Czech Republic, Denmark, Estonia, Finland,France, Germany, Greece, Hungary, Iceland, Ireland, Italy, Latvia, Lithuania, Luxembourg, Malta, Netherlands, Norway, Poland, Portugal,Romania, Slovakia, Slovenia, Spain, Sweden, Switzerland and United Kingdom. EUROPE
27、AN COMMITTEE FOR STANDARDIZATION COMIT EUROPEN DE NORMALISATION EUROPISCHES KOMITEE FR NORMUNG Management Centre: Avenue Marnix 17, B-1000 Brussels 2009 CEN All rights of exploitation in any form and by any means reserved worldwide for CEN national Members. Ref. No. CEN/TS 15873:2009: EDIN CEN/TS 15
28、873:2009-12 CEN/TS 15873:2009 (E) Contents Page Foreword3 1 Introduction4 2 Scope and purpose5 2.1 Scope 5 2.2 Purpose.5 3 Related Standards .6 3.1 UPU S42 6 4 Symbols and Abbreviations .6 5 XML Schema adressTree 7 5.1 , and 8 5.2 Address Tree in , and .8 5.3 Attributes for , and .10 5.4 String part
29、s in , and 10 5.5 Ranges in , and .11 5.6 Aliases in , and 12 5.7 other XML files .13 5.8 Linking addresses via .14 5.9 Project specific part of the XML schema 15 6 XML Schema addressDeltaTree .17 6.1 Joining deltas via and file names.18 6.2 Update actions , and 18 7 Miscellaneous 20 Annex A (inform
30、ative) 21 A.1 General XML Schema part 21 A.2 Example for a project specific XML Schema part 24 A.3 Initial addressTree Example .24 A.4 Update addressDeltaTree Example25 A.1 Updated addressTree Example 26 2 Vornorm DIN CEN/TS 15873:2009-12 CEN/TS 15873:2009 (E) Foreword This document (CEN/TS 15873:20
31、09) has been prepared by Technical Committee CEN/TC 331 “Postal Services”, the secretariat of which is held by NEN. Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. CEN and/or CENELEC shall not be held responsible for identifying a
32、ny or all such patent rights. According to the CEN/CENELEC Internal Regulations, the national standards organizations of the following countries are bound to announce this Technical Specification: Austria, Belgium, Bulgaria, Cyprus, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece,
33、 Hungary, Iceland, Ireland, Italy, Latvia, Lithuania, Luxembourg, Malta, Netherlands, Norway, Poland, Portugal, Romania, Slovakia, Slovenia, Spain, Sweden, Switzerland and the United Kingdom. NOTE This document has been prepared by experts from CEN/TC 331 and UPU, in the framework of the Memorandum
34、of Understanding between UPU and CEN. 3 Vornorm DIN CEN/TS 15873:2009-12 CEN/TS 15873:2009 (E) 1 Introduction In initial meetings of CEN/TC331/WG3 interfaces which will benefit from standardization have been identified and agreed on. Candidates for Open Interface standardization are: interface betwe
35、en the image handler and automatic address readers or video coding places; interface from machine control to Barcode Printers; interface from machine control to Barcode Reader / Verifier; interface between scanner, image handler and machine control; file format of Sort Plan; MIS Interface (Statistic
36、s); file format of Address data files. The new intended standard deals with the file format of Address Data Files. OCR results and video coder inputs have to be verified against the “real” existing addresses in order to reach high recognition rates combined with low error rates. For that purpose pos
37、tal operators provide postal address directories to the OCR/VCS suppliers. Usually different postal operators use different file formats for these (source) directories. In typical postal automation systems these files will be processed by directory generation software which creates application speci
38、fic loadable data. This data usually referred to as “operational directory” is heavily compressed and contains access tables tailored for the specific reading software. Usually different OCR/VCS suppliers use different operational directory formats. This standard shall define a common Address Data F
39、ile format for postal address directories to be provided from the postal operators to the OCR/VCS suppliers. This Address Data File format shall be designed to hold all information necessary to support address reading and video coding software including data required for special recognition tasks e.
40、g. forwarding applications. 4 Vornorm DIN CEN/TS 15873:2009-12 CEN/TS 15873:2009 (E) 2 Scope and purpose 2.1 Scope This document defines a file format for the generation of postal address directories. It is designed to hold all information necessary to support address reading software including data
41、 required for forwarding applications. In typical postal automation systems these files will be processed by directory generation software which creates application specific loadable data. This data usually referred to as operational directory is heavily compressed and contains access tables tailore
42、d for the specific reading software. Not in the scope of this document are topics external to file like compression, checksums, the interface for transmission to the supplier, modification permissions, error handling on inconsistent data and undo in updates. 2.2 Purpose The format has been designed
43、with the following requirements in mind: must be able to hold the following data: addresses composed of address components (including aliases and range-data); person and organization names; address codes typically used as sort codes; links between addresses e.g. for use in forwarding; should not res
44、trict character encoding; easily customizable for specific applications; should allow complete as well as incremental updates, i.e. change-only data; it must be possible to split data in multiple files for better handling. The ideas behind this format are as follows: The format is based on XML. The
45、basic XML structure is general. Project(the term project is used throughout this document to describe a specific application such as address data for a specific country or postal organization) specifics are coded as attributes. This should make it easier to build project independent parsers and tool
46、s. Address data can be structured hierarchically. An address component appearing in a lot of addresses shall be written once as parent node in all addresses it is used in the XML address tree. Beyond the pure address data, there are general as well as optional project specific attributes on the leve
47、l of address components and string parts. In favour of faster parser execution and smaller file sizes the names of XML elements appearing very often are short strings. Semantics are defined only in a basic manner and have to be completed in the project specific tailoring process. E.g. a street witho
48、ut numbers in the data may be interpreted as a street which has no numbers, or where all numbers are valid. Due to this users must be aware that the interoperability of this Technical Specification may be limited to be applied to the specific project. 5 Vornorm DIN CEN/TS 15873:2009-12 CEN/TS 15873:
49、2009 (E) 3 Related Standards 3.1 UPU S42 1) UPU S42 is beginning with version -5 a two part standard. Part a contains concepts and the theoretical language description. Part b contains practical examples from different countries and may be supplemented with new examples in some future. 2) UPU S42a defines components an address is composed of as well as postal entities which can