Warum und wie sollte man Rechte maschinenlesbar ausdrücken können?



In meiner Diskussion mit Stefan Niggemeier über Robots.txt hatte ich auf die Auseinandersetzung hingewiesen, die sich seit Jahren um die maschinenlesbare Darstellung von Urheberrechtsinformationen dreht. Den Reaktionen auf diesen Text war zu entnehmen, dass viele Leserinnen und Leser mit der Thematik noch nicht vertraut sind. Daher hier ein interessantes Hintergrundpapier aus den USA, das Lage und Problematik in einem kurzen Abriss darstellt. Es handelt sich um ein aktuelles internes Dokument in englischer Sprache, das ich hier veröffentlichen darf, jedoch ohne den Absender zu nennen. Die Fakten habe ich überprüft. Sie sind nach meinem Kenntnisstand alle korrekt.

Introduction to IPTC, rNews and RightsML

The International Press Telecommunications Council (IPTC, www.iptc.org) is a London-based consortium of news agencies, news publishers and news industry vendors that develops and maintains technical standards for improved news exchange. Established in 1965, its standards are now used by virtually every major news organization in the world.

The IPTC has recently developed two important standards 1) rNews, a protocol for using semantic markup to annotate news-specific descriptive data, known as metadata, in HTML documents, and 2) RightsML, an associated rights expression language that allow news content owners to express information about how the content can or cannot be licensed and used. The ultimate goal of these two IPTC standards is to allow a robust, autonomous, asynchronous, virtual content licensing marketplace in which content owners, publishers and users could gather to identify, license, distribute and use content based on machine-readable rights.

rNews arose out of a need to better convey information about news content to anyone interested in making downstream use of content once it was originally published, whether to present search results, analyze current events, integrate into other news offerings or otherwise use the content or information about it. It includes vocabularies that are common to any creative work but also introduces terms such as byline and headline that are specific to multimedia news content. Work on the standard began in October 2010 and the first version was released a year later in September of 2011.

RightsML, whose development began prior to the release of rNews, is a markup language designed to express usage terms in a machine-readable format. This rights information is what would be referenced by the rNews usageTerms property for machine-to-machine communication of usage Terms. The rights language includes a consistent vocabulary for actions such as the permission or the obligations before one can index, aggregate, translate or share content of any type available digitally. While simply displaying the copyright notice and human-readable usage terms might be sufficient for consumer use, RightsML provides a rich framework for successful business-to-business communication of sophisticated rights information in an unambiguous manner. It is based on an existing rights expression framework successfully employed by the mobile industry, among others, called the Open Digital Rights Language (ODRL) and has been in an experimental phase for news usage wherein various publishing users have been testing out applications of the language since April 2012.

IPTC Interaction with Google and Schema.org

IPTC proactively reached out to a number of constituents seeking input on rNews as a normal part of its standards development process, including the Schema.org consortium of the major search engine providers Google, Yahoo! and Microsoft which launched mid-process in June of 2011. Schema.org, represented primarily by Google’s semantic web leader Ramanathan V. Guha in discussions with IPTC, expressed great interest in working together toward common purpose. However, IPTC was disappointed to learn just before rNews release that Schema.org would not be adopting two important elements of rNews: the copyright notice and the terms of use that detail the conditions under which the content could be used (properties “copyrightNotice” and “usageTerms”). The properties were included in Schema.org’s test site, but they alone disappeared with the official release of Schema.org news article vocabularies.

When questioned by publishers on the Schema.org development site, in online forums for semantic web practitioners and at industry panels, Mr. Guha has claimed Schema.org does not see benefit to these properties being included and will not process them. The IPTC continues to persistently lobby Schema.org for inclusion of the omitted properties, but has not been given clear information on how to build a successful case. With search engines’ pivotal role in downstream communications, this stance clearly undermines the content publishers’ interests in expressing copyright and developing an informed marketplace around the restrictions and permissions on reuse of their content, including capturing their fair share of revenue from downstream uses of their content.

To date, the Schema.org actions have created confusion in the market and hampered adoption of rNews as news publishers struggle to understand whether inclusion of these properties in their publishing templates will adversely affect the indexing and search results display of their content. In the meantime, Google and Microsoft have both reported relatively rapid uptake of Schema.org vocabularies across industries in its first nine months, citing 6-8% of the pages their massive systems index as including schema.org marked up documents.

The Superiority of rNews and RightsML over Schema.org and Robots.txt

When Google was just a search engine with an indexing algorithm and a simple link back to originating sources it may have been sufficient for a web page to tell it a simple ‘yes’ or ‘no’ on being crawled through the binary robots.txt protocol. However, Google is now much more than that, with much more extensive use of content in its search results pages and on its own publishing platforms. As Google becomes more and more of both a party and a conduit to a much more dynamic content marketplace, it is now imperative to convey what can and cannot be done with content after it is indexed. Otherwise, Google is able to exploit the structured data publishers are now improving to its further benefit without any obligations.

The rNews plus RightsML solution is superior to the disjointed Schema.org and robots.txt protocols promoted by Google because they allow for much more granular machine-to-machine communication of acceptable actions. rNews, inclusive of copyright notice and terms of use, and RightsML work together to both promote and protect content. The rNews markup holds numerous fields that allow a publisher to display a variety of detailed information about the information contained in a piece of content. This markup makes it easier for search engines and others to process the information and expose the information to end users. The copyright ownership and usage rights fields of rNews allow publishers to claim ownership and to specify either directly in the rNews markup or through a link to a separate document, the rights claimed in, and the licenses available for, a particular piece of content.

Robots.txt is no substitute for RightsML. Robots.txt is not robust because it only specifies one “right” – the right to search. It does not address any traditional copyright permissions. It is not flexible because it only addresses large sections of websites, not individual published items that might make up a web page. It is not efficient and can be quite onerous because, in order to determine rights for any particular element of content, an entity needs to process the entire robots.txt file describing all rights for all content on the site rather than processing only the usage rights associated with a particular content item.

Copyright Notice and Usage Rights as Remedies

The needs of users, publishers, distributors and creators could be served best by having a dynamic marketplace in which permissions, restrictions and financial obligations are set by the content supplier and the value derived is determined naturally by market demand. This is only available when the infrastructure of a marketplace is available to leverage and the opportunities to locate and participate in the market are made simple.

If Google were required to crawl and process any metadata markup established by a recognized standards body, including any associated, standards-based rights expression language description of rights, content creators could inform Google (and anyone else interested in making further use of someone else’s digital content), precisely how much of their content can be used, how Google can use it and, if relevant, what compensation Google would have to pay for particular uses. In addition, requiring Google to process this information would have the added benefit of allowing users or potential downstream publishers to search for content by what licenses to the content were available, as well as by the information in the content. This is similar to what Google already does in its “Advanced Search” tab, but which they currently limit to only include variants for free use. Furthermore, once Google starts to recognize and process metadata markups and rights expression languages, others can begin to establish new marketplaces in which content owners, content acquirers and others could gather to license content fairly and openly. The whole process would also be greatly aided if Google and others were more transparent about what they do and don’t do with the information they capture.

Google’s direct involvement with the standards bodies such as IPTC and education publishing’s Learning Resource Metadata Initiative, for example, which are working to advance machine-readable usage rights would also give a boost to these efforts and clearly signal Google’s unequivocal commitment to full endorsement of their developing metadata initiatives. As noted above, Schema.org’s vocabularies have had an uptake already of 6-8%. If Google and its search engine cohort are required to include the copyright and usage terms in Schema.org’s vocabularies for news articles and other creative works and are required to process the information contained in those fields, the infrastructure on the internet to efficiently process and act on rights information could flourish. In this way, fair use can be reinforced and fair share can be returned to digital content publishers.



 

17 Kommentare

 
  1. kleitos

    Ich hätte sehr gerne die Quelle des Textes gehabt.

    Vieles war den Ausführungen von Herrn Keese doch zu ähnlich – Thema “Lichtschalter

    “When Google was just a search engine with an indexing algorithm and a simple link back to originating sources it may have been sufficient for a web page to tell it a simple ‘yes’ or ‘no’ [...]“.

    Weiterhin wir da etwas “gewünscht”:

    As Google becomes more and more of both a party and a conduit to a much more dynamic content marketplace, it is now imperative to convey what can and cannot be done with content after it is indexed.”

    Für mich ist das nicht “imperativ” oder wünschenswert – und da bin ich wohl nicht der einzige.

    Und noch mehr “ich will *stampf mit dem Fuss auf* :

    “Robots.txt is no substitute for RightsML. Robots.txt is not robust because it only specifies one “right” – the right to search. It does not address any traditional copyright permissions.”

    Traditionalisten im Internet aka “Internetausdrucker” …

    Dazu fällt mir ein passendes Zitat ein:

    roflcopter

    gtfo

    Un mein Liebling:

    “The needs of users, publishers, distributors and creators could be served best by having a dynamic marketplace in which permissions, restrictions and financial obligations are set by the content supplier and the value derived is determined naturally by market demand.”

    Genau – alles für den “User” … da fällt mir ein weiteres Zitat zu ein:

    Die Botschaft höre ich wohl, allein mir fehlt der Glaube.

    Und wieder das Gefasel vom “Markt”.

    Da habe ich eine Frage an Sie, Herr Keese: Sind Sie im Sandkasten früher öfters verhauen worden, weil Sie Leistungsschutzrechte und Marktmechanismen für Ihre Sandburgen und Förmchen einführen wollten?

    Oder plagt Sie ein schlechtes Gewissen, weil Sie in diser Zeit schwere Geschmaksmusterverletzungen mit ihren förmchengefertigten Sandkuchen begangen haben?

    Glauben Sie eigentlich an das, was Sie tun oder ist es nur wegen des Geldes?

     
     
    •  
      • kleitos

        Hallo Herr Keese,

        Sie haben – an dieser Stelle – Recht. Somit bitte ich an ebenfalls an dieser Stelle um Entschuldigung für meinen Angriff auf Ihre Person.

        Jenseits der inhaltlichen Differenzen haben Sie meinen Respekt, wie Sie sich in hier in den Kommentaren der Debatte stellen und auch Rants wie den meinigen über sich ergehen lassen.

        Dafür ein großes Lob von mir.

        Bezüglich der Form meiner Ausführungen gelobe ich in Zukunft Besserung.

         
         
  2.  
  3.  
  4.  
  5.  
  6. @Wolfgang Ksoll

    Niemand spricht doch hier von „Digital Rights Management“, kurz DRM! Es geht m.E. um eine technische Möglichkeit, Nutzungsrechte zu verwalten und zu kommunizieren.

    Was darf wer womit tun, von wo und wie lange? Was darf mit Texten, Bildern, Audio, Video etc. geschehen, wo und für was genau sind Rechte vielleicht beschränkt (weil z.B. die Rechte für eine Übersetzung oder ein Bild dem Rechteinhaber selbst nur für ein bestimmtes Vertriebsgebiet vorliegen), welche Nutzungsarten sind in der Lizenz vorgegeben.

    Diese Dinge muss der Rechteinhaber zunächst für sich selbst verwalten (denn er stellt entweder Inhalte selbst her, oder er kauft sie ein mit bestimmten Nutzungsrechten). Und dann müssen diese Rechte je Inhalt bestenfalls (und darum geht es m.E. in diesem Post) denjenigen maschinenlesbar kommuniziert werden, die diese Inhalte auf eine bestimmte Art nutzen wollen.

    Dies ist aber doch genau die Grundlage für tragfähige Geschäftsmodelle! Man macht im Prinzip eine Datenbank (Marktplatz) mit transparent kommunizierten Angeboten für Inhalte, die dann von Verwertern entsprechend dieser Lizenzbedingungen genutzt werden können.

    Es geht hier m.E. nicht um DRM-Beschränkungen für Nutzer, sondern darum, dass Rechte standardisiert kommuniziert werden und in einer Art Repository für Verwerter automatisiert verarbeitbar sind. Vergleichbar zu CC-Lizenzen, angereichert jedoch mit zahlreichen weiteren Informationen der Lizenz.

     
     
  7. Das Digital Rights Management, in das auch Microsoft viel Geld investiert hat, war ein Flop. Die Musiklabels haben 2007 aufgehört, darauf zu hoffen. Damals haben viele den Traum vom großen Geld geträumt, wenn man z.B. CD einschränkt und nicht mehr beliebig auf einem der 10 Geräte im Haushalt im Radio, im PC, im Notebook, im Auto usw. abspielen durfte, sondern für jedes Gerät eine eigene Lizenz kaufen sollte. Mit einher ging dabei eine faktische Wucherpreiserhöhung, die bei uns ein Straftatsbestand ist. Aber bevor jemand klagte, war der Mist vom Tisch.

    Es soll ein rechtliches Problem mit technischen und nicht mit rechtlichen Mittel gelöst werden. Man kann es träumen, man kann die Realität einfach ausblenden (wie bei der Atomenergie). Aber es hilft nichts. Es ist Zeitverschwendung. Man könnte seine Zeit auch in tragfähige Geschäftsmodelle stecken, statt Bürger und Staat ständig sinnlose Arbeit aufzuhalsen wie beim LSR.

    Je länger man sich weigert, tragfähige Geschäftsmodelle zu bauen und je mehr man nach Staat, Gesetzen und Sozialismus ruft wie Keese, desto größer wird das Risiko des unternehmerischen Misserfolges. Und dann kommen die Heuschrecken und plündern die Ruinen. Die Dummen sind die Aktionäre, weil für dieses unternehmerische Missmanagement keine Verantwortung übernommen wird.

     
     
  8. Ich denke nicht, dass es sich hier in der Sache um „Technospielereien“ handelt. Für alle Rechteinhaber – und das sind nicht nur Presseverlage – sind die Verwaltung und (maschinenlesbare) Kommunikation von Nutzungsrechten, insbesondere in einem sich ganz neu formierenden internationalen Markt (wie es sich z.B. im Bereich Ebooks aktuell zeigt), eine große Herausforderung.

    „The needs of users, publishers, distributors and creators could be served best by having a dynamic marketplace in which permissions, restrictions and financial obligations are set by the content supplier and the value derived is determined naturally by market demand. This is only available when the infrastructure of a marketplace is available to leverage and the opportunities to locate and participate in the market are made simple.“

    Vielleicht sollte man betonen (was hier nur implizit angesprochen wird), dass auch die Abrechnung der unterschiedlichsten Geschäftsmodelle einfach gestaltet werden muss. Es wundert nicht, dass Bertelsmann in eine Plattform wie Royaltyshare investiert hat.

    Ich kann also den Ansatz nur unterstützen, in einen „dynamischen Marktplatz” für Nutzungsrechte und Lizenzbedingungen wie oben skizziert zu investieren. Ich frage mich jedoch, wer das aktuell tatsächlich tut? Gibt es Beispiele, Unternehmensgründungen, Beteiligungen, Initiativen, Aktivität der Rechteinhaber, ein solches Projekt zu starten?

     
     
  9. 15 Jahre nach der Bundesregierung kommt nun die Technospielerei statt tragfähiger Geschäftsmodelle. Die Bundesregierung hat es in einer nationalen Sonderbehandlung geschafft, durch qualifizierte Signaturen, EID auf neuem Personalausweis, DE-Mail, E-Governmentgesetzdrohung erfolgreich geschafft, die Bürger von der Verwaltung abzuschotten und die Verwaltung sich in der Trutzburg einmauern zu lassen:
    http://wk-blog.wolfgang-ksoll.de/2012/02/26/e-government-in-der-trutzburg-das-rheingold/

    Nun kommt Christoph Keese 15 Jahre nach erstem Signaturgesetz und möchte auch Technospielereien haben. Und wie die Bundesregierung behauptet man erst mal religiös ohne wie bei Internetstandards üblich (RFCs) Feasability nachgewiesen zu haben.

    Besonders zynische ist, wenn man bei der Diskussion über Urheberrechte anonyme Texte vorlegt, damit man nicht auf den Urheber und seine Intermediäre rückschliessen kann.

    Ich kann das nur als Publikumsverhöhnung deuten.

    Wieso schafft es ProSiebenSat1 für den Zuschauer kostenlos und ohne technische Behinderungen zu senden, Milliarden-Umätze zu machen (so dass eine US-Heuschrecke Eigentümer wird), den Vorständen Millionen-Gehälter zu zahlen und Christoph Keese schafft es nicht, tragfähige Geschäftsmodelle zu finden?

     
     
  10. Moon

    Auch der “geleakte” Text (schämt sich der Autor, obwohl es doch “Fakten” sind, oder wieso will er nicht genannt werden?) erklärt weiterhin nicht, warum ausgerechnet Google diesen Aufwand betreiben sollte, wo die Verlage ihren Content weiterhin kostenlos ins Netz stellen.

    Bezeichnend auch diese Aussage im Gulli-Interview:
    Die Verlage freuen sich natürlich über Traffic, der über Suchmaschinen kommt, aber die Werteverteilung zwischen Produzenten von teurem Content und Aggregatoren sind doch sehr unterschiedlich.
    Die Mehreinnahmen, die Google im Vergleich zu den Verlagen erwirtschaftet, stammen also primär aus der ungerechtfertigten Verwertung von Verlags-Content? Wer’s glaubt…

     
     
    • Moon

      Packen Sie doch mal einen Flattr-Button auf Ihr “privates” Blog, damit Sie sich einen Webmaster leisten können, der auch gleich mal ne Preview-Funktion für die Kommentare einbaut. Die Quote aus dem Gulli-Interview sollte so aussehen:

      Die Verlage freuen sich natürlich über Traffic, der über Suchmaschinen kommt, aber die Werteverteilung zwischen Produzenten von teurem Content und Aggregatoren sind doch sehr unterschiedlich.

       
       

Hinterlasse eine Antwort

Bitte füllen Sie die mit einem Stern markierten Felder aus.

*


2 + = 7

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>