Especificaciones del sistema de etiquetado de ICRA

La finalidad de ICRA es ayudar a los internautas a encontrar lo que buscan, a tener plena confianza en lo que encuentran y a evitar contenidos que puedan considerar inadecuados tanto para ellos mismos como para sus hijos. Existe un terminología disponible que puede utilizarse para describir cualquier tipo de contenido digital, de manera que refleje las numerosas preocupaciones en materia de Internet que tienen la mayoría de los padres en todo el mundo 2. Sin embargo, el sistema utilizado puede incorporar cualquier tipo de metadatos, independientemente de su propósito.

Las descripciones proporcionadas son asimiladas por el ordenador y pueden ser utilizadas por diferentes elementos, tales como filtros, motores de búsqueda, así como aplicaciones de ayuda que muestran información suplementaria a los usuarios.

Las etiquetas ICRA están codificadas en RDF3; una de las tecnologías clave en la que se basa la Web semántica4. Este documento no enumera las numerosas ventajas que la Web semántica puede ofrecer a los proveedores de contenido. Sin embargo, informa de que dicha Web contiene funciones como RSS, marcadores de página compartidos, blogs y sitios Wiki.

Nota: Para asegurar su compatibilidad con sistemas anteriores (especialmente el Asesor de Contenido en Internet Explorer), ICRA ofrece también una versión simplificada de la etiqueta en formato PICS junto al tag de enlace. Esta versión se tratara en un documento aparte.

El nombre de espacio del sistema RDF que forma la infraestructura para las etiquetas ICRA es http://www.w3.org/2004/12/q/contentlabel# y el nombre calificado recomendado es etiqueta. Podrá encontrar documentación al respecto disponible en http://www.w3.org/2004/12/q/doc/content-labels-schema.htm.

El nombre de espacio para la terminología de ICRA es http://www.icra.org/rdfs/vocabularyv03# y el nombre calificado recomendado es icra. Podrá encontrar la versión en texto de la terminología de ICRA y sus definiciones suplementarias en http://www.icra.org/vocabulary.

Una Etiqueta de contenido es por sí una descripción. Es decir, un conjunto de metadatos que puede aplicarse a una diversidad de material. Para ello, se colocan una o varias etiquetas en un archivo al que se enlaza el material mediante un Tag de enlace (X)HTML, o mediante un encabezado de respuesta HTTP.

El archivo que contiene las etiquetas está en formato RDF y suele denominarse “labels.rdf”. Éste es el nombre del archivo creado por el generador de etiquetas de ICRA (véase la sección 2.3). No obstante, el nombre no tiene importancia y puede modificarse.

Los distintos tipos de material pueden enlazarse con una etiqueta específica o con un conjunto de datos que permite a los clientes asociar la dirección de Internet del material a una serie de reglas que definen la etiqueta adecuada.

De este modo, los proveedores de contenido pueden decidir si la asociación entre el material y su etiqueta se hace desde el lado cliente o lado servidor.

Figura 1. Asociación del contenido con las etiquetas en el lado del servidor

La figura 1 muestra un ejemplo en el que cada tipo de material está enlazado con una etiqueta específica. Si el nombre del archivo RDF es “labels.rdf” y se encuentra situado en la raíz del directorio del sitio Web y, además, se requiere el enlace de cierto material con una etiqueta denominada “etiqueta_1” (label_1), el tag de enlace a utilizar será el que se muestra en el Ejemplo 1:

Ejemplo 1. Tag de enlace típico que asocia una etiqueta específica a cierto tipo de material

El correspondiente encabezamiento de respuesta HTTP es:

Link: ; /=”/”; rel=”meta” type=”application/rdf+xml”; title=”ICRA labels”;

Ejemplo 2. Encabezamiento de respuesta HTTP correspondiente al Ejemplo 1

Tenga en cuenta que la etiqueta específica que se encuentra en el archivo RDF está identificada por el fragmento de la dirección URL proporcionado en el atributo href. El atributo title es facultativo, pero se recomienda para mayor claridad. La ubicación del archivo labels.rdf carece de importancia. Puede estar ubicado en cualquier lugar y en cualquier servidor, sin embargo, su ubicación deberá estar indicada en el atributo href.

La figura 2 muestra un enfoque alternativo. En este caso se enlaza todo el material con el archivo RDF. Sin embargo, el enlace no identifica la etiqueta. Contrariamente a lo que sucede en el caso anterior, el archivo RDF define una etiqueta por defecto y puede a continuación definir también una serie de reglas basadas en expresiones racionales Perl 5 capaces de cancelar dicha etiqueta definida por defecto. La primera regla de la serie que se cumpla, será la que identifique la etiqueta correspondiente.

Figura 2. Asociación del material con las etiquetas en el lado del cliente

Si el nombre del archivo RDF es “labels.rdf” y se encuentra situado en la raíz del directorio del sitio Web, el tag de enlace utilizado será el indicado en el Ejemplo 3:

Ejemplo 3. Tag de enlace típico que enlaza cierto material con un archivo RDF, el cual contiene reglas que permiten identificar la etiqueta correspondiente.

El correspondiente encabezamiento de respuesta HTTP es:

Link: ; /=”/”; rel=”meta” type=”application/rdf+xml”; title=”ICRA labels”;

Ejemplo 4. Encabezamiento de respuesta HTTP correspondiente al Ejemplo 3

Al igual que sucede en el Ejemplo 1, la ubicación o el nombre del archivo RDF no son importantes.

En su sitio Web, ICRA proporciona una herramienta que permite crear el archivo RDF y los tags que sean necesarios. Esta herramienta se denomina “generador de etiquetas” 5. Está diseñada para ser utilizada tanto por personas que poseen poco o ningún conocimiento sobre las técnicas de creación de sitios Web, como por aquellos usuarios más expertos. El generador de etiquetas crea el archivo RDF basándose en el modelo de procesamiento existente en el lado cliente mencionado anteriormente (sección 2.2). No obstante, también puede utilizarse para el modelo del lado servidor.

El archivo RDF debe definir una o varias etiquetas. Más concretamente, debe definir al menos un ejemplo de etiqueta de contenido de tipo RDF como el que se define en http://www.w3.org/2004/12/q/contentlabel#ContentLabel.

NOTA. Las etiquetas de contenido RDF pueden contener instrucciones procedente de cualquier sistema RDF. Sin embargo, este documento sólo trata de la versión utilizada por ICRA.

El archivo RDF puede asimismo definir ninguno o varios de los siguientes elementos:

  1. El sistema o sistemas anfitrión para los que la o las etiquetas son de aplicación. Los sub-dominios se incluyen en el ámbito de aplicación.
  2. Una cadena suplementaria que deberá corresponder con el URI (identificador de recursos uniforme) del material para que puedan aplicarse las etiquetas del archivo RDF.
  3. La etiqueta por defecto.
  4. Una serie de reglas solicitadas que deberán compararse con el URI de cierto material. Si se cumple una regla, el sistema deberá proporcionar una etiqueta que cancele cualquier etiqueta definida por defecto.
  5. Una descripción del archivo en sí que indica el lugar donde puede encontrarse información suplementaria relacionada con la etiqueta, incluyendo el modo a utilizar para evaluar su veracidad.

Estos elementos se explican de manera detallada en el Ejemplo 5. Al igual que en todos los ejemplos incluidos en este documento, así como en todos aquellos proporcionados por ICRA, el contenido RDF está serializado a XML. Sin embargo, esto no es obligatorio y otras serializaciones como N36 son igualmente válidas.

 1 

 2 
  
    
    http://www.icra.org/rdfs/vocabularyv03#
    
   
 3 
  
    
      
        example.org
        example.com
      
    
    
 4 
    
      
        photography
        
      
  
     
       guestbook
        messages
        
      
    
  
 5 
  
    Label for all/most of website
    No nudity, no sexual content, no violence, no 
     potentially offensive language, no potentially harmful 
     activities, no user-generated content
    1
    1
    1
    1
    1
    1
  

  
    Label for photography section
    Exposed breasts, Bare buttocks, No sexual 
    content, no violence, no potentially offensive language, 
    no potentially harmful activities, no user-generated 
    content, This material appears in an artistic 
    context
    1
    1
    1
    1
    1
    1
    1
    
  

  
    Label for guestbook and message board
    
    No nudity, no sexual content, no violence, no 
    potentially offensive language, no potentially harmful 
    activities, user-generated content 
    (moderated)
    1
    1
    1
    1
    1
    1
  

Ejemplo 5. Ejemplo de archivo RDF que contiene etiquetas ICRA

Aquí se definen los nombres de espacio. Se recomiendan los nombres calificados label e icra para sus respectivos nombres de espacio.

3.1.2 Sección 2

Esta breve sección indica que las etiquetas han sido creadas por ICRA y que existe información adicional disponible en el sitio www.icra.org. Puesto que es del todo posible incluir descripciones basadas en otros sistemas, esta sección precisa que www.icra.org solamente posee información sobre los nombres de espacio utilizados por ICRA.

3.1.3 Sección 3

Esta sección indica los sistemas anfitriones para los que los datos tienen validez. En este caso, se indica que las etiquetas pueden aplicarse tanto a “example.org” como a “example.com”. Los sub-dominios como www.example.org, sub.example.com, etc. también estarán cubiertos.

Esta sección indica también que la etiqueta de contenido definida por defecto para el material existente en dichos sistemas anfitrión es la “etiqueta_1” (label_1) (véase la sección 3.1.5).

Si las etiquetas deben limitarse a una zona específica del sistema anfitrión “example.org” y “example.com”, esto se indicará como sigue:

foo

Las etiquetas de este archivo RDF sólo serán aplicables a aquel material cuyos URI en los sistemas anfitrión “example.org” o “example.com” también incluyan el atributo “foo”. Esta función va dirigida sobre todo a los proveedores de servicios de Internet (ISP) que ofrecen espacio personal en Internet con direcciones como www.example.org/username. Si se incluyen varias propiedades “hasURI”, un URI será aplicable si cualquiera de ellas corresponde.

3.1.4 Sección 4

A continuación se describen las reglas que determinan los casos en que la etiqueta definida por defecto debe ignorarse para hacer prevalecer otro tipo de etiqueta. En este ejemplo, todo lo que se encuentra en la sección “photography” (fotografía) de “example.com” y “example.org” estará vinculado con la etiqueta_2 “label_2”, mientras que todo lo que incluya tanto la palabra “guestbook” (libro de visitas) como “messages” (mensajes) en la dirección de Internet estará vinculado con la etiqueta_3 “label_3”. De lo contrario, la etiqueta definida por defecto será aplicable.

La correspondencia se efectúa utilizando las expresiones racionales Perl 5 7, de modo que si se aplica una regla a “todas las direcciones URL que terminen en jpg”, ésta aparecerá bajo la forma \.jpg$.

La utilización de rdf:parseType=”Collection” permite garantizar el procesamiento de las reglas en la secuencia establecida. La primera regla que debe cumplirse es la que se utiliza y el procesamiento se detiene en cuanto esto ocurre.

3.1.5 Sección 5

Finalmente, se definen las propias etiquetas. En el ejemplo mostrado, la “etiqueta 2” (Label_2) indica que el contenido incluye senos desnudos, traseros desnudos y que el material aparece en un contexto con fines artísticos. La “etiqueta 3” (Label_3) indica la presencia de contenido generado por el usuario, pero revisado por un moderador, mientras que la “etiqueta 1” (label_1) indica “ninguno de los elementos anteriores” para todas las categorías de la terminología de ICRA.

El tipo MIME correcto para los archivos RDF es application/rdf+xml8. Es posible que, por defecto, su servidor no sea compatible con esta función 9. Si este es el caso, deberá elegir una de las dos opciones que se indican a continuación:

  1. Lo ideal sería añadir el tipo MIME application/rdf+xml generalmente asociado a la extensión de archivo .rdf.
  2. Si no consigue hacerlo, intente cambiar el nombre del archivo RDF y escriba en su lugar “labels.xml.” El tipo MIME XML (application/xml) es una alternativa aceptable y suele incluirse muy a menudo en la configuración definida por defecto de los servidores.
  3. Es posible que algunos servidores propongan text/xml como tipo MIME para aquellos archivos que posean la extensión .xml. Esto no debería plantear problemas para aquellos clientes que sólo busquen etiquetas ICRA, sin embargo, no debería utilizarse si está incluyendo etiquetas ICRA en un conjunto de datos más sofisticado (como por ejemplo en una base de datos), o si los caracteres configurados no corresponden a iso-8859-1 (Latín-1).

Si no se siguen ninguna de estas opciones, es posible que su servidor utilice por defecto text/plain como tipo MIME. En este caso, es posible que un cliente no reconozca los datos como RDF y, por lo tanto, no los procese correctamente.

Si usted administra servidores de tipo IIS y no está seguro de cómo puede añadir nuevos tipos MIME, consulte la Sección 5.3 que aparece más adelante.

Si su servidor está protegido por un cortafuegos, puede que tenga que configurar sus parámetros de la manera adecuada.

Después de haber creado el archivo RDF, deberá insertar los enlaces hacia dicho archivo. Para que un sitio Web se considere completamente etiquetado, deberán incluirse enlaces en cada página (X)HTML y, en teoría, en todo el material.

La posibilidad de relegar el procesamiento de las etiquetas hacia el lado cliente en vez de hacia el lado servidor ofrece una ventaja esencial: la posibilidad de insertar un enlace idéntico en todo el material. Esto es una realidad independientemente de que las etiquetas cubran un pequeño sitio Web o toda una red mundial de dominios de Internet.

La manera más eficaz de utilizar esta función es configurando el o los servidores de manera que incluyan el enlace en los encabezamientos de respuesta HTTP. De este modo se evitará la posibilidad de borrar accidentalmente el tag (o de omitirlo) cuando se vuelvan a remodelar las páginas. El control de las etiquetas estará en manos de la persona (o departamento) responsable de la gestión del archivo RDF. Dicha persona (o departamento) no tiene por qué ser la misma que la que ha creado el contenido. Como alternativa, se podrá simplemente incluir un tag de enlace (X)HTML (similar al del Ejemplo 1 o al del Ejemplo 3, según sea el caso) en una plantilla de documento o en cualquier otro método que utilice para incluir los mismos datos en el encabezado de cada página.

Sí. La primera vez que un usuario visita su sitio Web, el sistema cliente de estos sólo detectará las etiquetas si incorporan un enlace. Si por ejemplo el enlace sólo se ha incluido en la página de inicio, los usuarios que accedan al sitio a través de otras páginas no podrán aprovecharse de la protección de la etiqueta.

Existen varias maneras de controlar los encabezamientos de respuesta HTTP en los servidores Apache. Si ya dispone de un método para configurar encabezamientos utilizados para otras funciones, le recomendamos que siga utilizando dicho método. De lo contrario, el método que se indica a continuación es eficaz y funciona.

5.2.1 Instale Mod_Headers (modificadores de encabezamiento)

Generalmente, Mod_Headers no está incluido en la configuración definida por defecto, pero casi seguro que viene incluido en su instalación de Apache y se “activa” simplemente suprimiendo el símbolo de comentario situado delante de las dos líneas que se encuentra en el archivo httpd.conf.

Existen numerosas “ideas” sobre cómo configurar Apache, pero las instrucciones que aparecen a continuación proporcionan como mínimo los pasos básicos necesarios en este caso.

En la sección DSO del archivo httpd.conf, localice lo siguiente:

LoadModule headers_module     modules/mod_headers.so

En algunas versiones, basta con eso, sin embargo, otras también requieren la siguiente instrucción:

AddModule mod_headers.c

Los comentarios en su archivo de configuración y la presencia (o ausencia) de instrucciones similares para otros módulos, le ayudarán a encontrar la mejor solución.

5.2.2 Cómo configurar el mismo encabezamiento de respuesta para todo el material

Suponiendo que el archivo RDF lleve el nombre “labels.rdf” y se encuentre en la raíz del directorio de documentos del servidor de Web, al introducir la instrucción siguiente en el archivo httpd.conf se consigue el resultado deseado.

Header set Link ‘; /=”/”; rel=”meta” type=”application/rdf+xml”; title=”ICRA labels”;’

NOTA: esta instrucción suele aparecer íntegramente en una sola línea.

5.2.3 Cómo crear un enlace hacia etiquetas específicas con los encabezamientos de respuesta HTTP

Al igual que sucede con otras opciones de configuración de Apache, los encabezamientos de respuesta HTTP pueden parametrizarse dentro de las instrucciones de bloques. En el ejemplo 6 se parametriza el enlace hacia la etiqueta_2 (“label_2”) para todo el material que se encuentra en /var/www/images/.

  Header add Link ‘; /=”/”;   rel=”meta” type=”application/rdf+xml”;   title=”ICRA labels”;’

Ejemplo 6. Se muestra una instrucción de bloque simple que configura un encabezamiento para todo el material que se encuentra en el directorio de imágenes.

Al igual que en el caso indicado anteriormente, la instrucción Header add Link deberá aparecer íntegramente en una sola línea.

Las instrucciones de bloques permiten también obtener un control preciso de los encabezamientos de respuesta HTTP, en caso de ser necesario*. En el ejemplo 7 se parametriza un encabezamiento hacia la “etiqueta_1” (Label_1) para todo el material que se encuentra en el directorio (y subdirectorios) /var/www/. Pero cuando el nombre de archivo termina en gif, jpg, jpeg o png, se desvía el encabezamiento hacia la “etiqueta_2” (Label_2).

  Header add Link ‘; /=”/”;   rel=”meta” type=”application/rdf+xml”;’       Header unset Link     Header add Link ‘; /=”/”;     rel=”meta” type=”application/rdf+xml”;’  

Ejemplo 7. Se muestra una instrucción de bloque encadenada que parametriza un encabezamiento para los archivos de imágenes que es completamente diferente del de los otros archivos incluidos en el mismo bloque.

Tenga en cuenta que en el ejemplo 7, el enlace está aislado dentro de la instrucción de bloque del archivo. Esto se debe a que, cuando se enlaza cierto material a una etiqueta específica, esta etiqueta se convierte en prioritaria y no puede ser ignorada (véase la sección 7). Por lo tanto, es un error incluir más de un enlace hacia etiquetas específicas y, en dichas circunstancias, no se consigue definir el comportamiento que se tiene previsto para los sistemas cliente 10.

* Puede que algunas versiones de Apache no permitan parametrizar encabezamientos en una instrucción de bloque tipo Virtual Host.

Un número elevado de proveedores de contenido tan sólo necesitan una etiqueta única o, como máximo, unas pocas etiquetas para su sitio Web. No obstante, el conjunto de reglas ofrece bastante flexibilidad y permite controlar de manera precisa qué etiqueta se asocia a qué material. Hay tres tipos básicos de reglas disponibles:

Se trata de una regla simple que indica una expresión racional única en un elemento hasURI que, en caso de que se cumpla, identificará la etiqueta correspondiente.

Se trata de una regla que incluye dos o más expresiones racionales en los elementos hasURI y que, en caso de que cualquiera de ellas se cumpla, identificará la etiqueta correspondiente.

Se trata de una regla que incluye dos o más expresiones racionales en los elementos hasURI y que, en caso de que todas ellas se cumplan, identificará la etiqueta correspondiente.

En el ejemplo 5, se indican dos reglas:

  photography  

Cualquier material cuyo URI incluya la palabra “photography” (fotografía) (y se encuentra en uno de los sistemas anfitrión que se han definido) estará descrito por la “etiqueta_2” (label_2).

  guestbook   messages  

Si un URI no cumple la primera regla, cualquier sistema cliente intentará compararlo con la regla para “guestbook” (libro de visitas) y “messages” (mensajes). Si se cumple una de las reglas (para cualquiera de ellos), se aplicará la “etiqueta_3” (label_3).

Es posible encadenar reglas como se muestra en el ejemplo 8. La “etiqueta_2” (Label_2) se aplicará si la dirección URL incluyera “colour” e “image” o “monochrome” e “image”. Tenga en cuenta que hasLabel es una propiedad de la regla “externa”.

   colour image   monochrome image   
  
  
  

Ejemplo 9. Descripción de una película utilizando modificadores de frecuencia.

Los modificadores de frecuencia cuentan con una amplia gama de etiquetas label:ContentLabel. Es decir, que DEBEN enlazarse a una categoría de este tipo.

Etiquetas de contenido, restricciones del sistema anfitrión, reglas: todos estos no son más que fragmentos RDF. No deben necesariamente estar todos en un archivo único llamado “labels.rdf”. Si está acostumbrado a utilizar el sistema RDF, considere simplemente las etiquetas ICRA como si formaran parte de sus metadatos.

En caso de que cree un número elevado de sitios Web que necesitan incluir la misma etiqueta ICRA, cree un archivo que contenga la etiqueta e integre el tag que le sirve de enlace en su plantilla habitual. Recuerde que las etiquetas no tienen por que estar necesariamente en el mismo servidor, pueden estar ubicadas en cualquier sitio.

Ni siquiera necesita incluir una restricción del sistema anfitrión, ya que si se enlaza cierto material con una etiqueta y no hay ninguna restricción del sistema anfitrión incluida en el archivo RDF, la etiqueta será válida. El inconveniente es que cualquiera puede establecer un enlace hacia su etiqueta, lo cual supondría una carga adicional en su servidor.

Si a pesar de todo desea incluir una restricción del sistema anfitrión, ésta podrá estar ubicada en un archivo independiente, completamente aislado. El Ejemplo 10 muestra la manera de hacerlo. Los dos fragmentos RDF pueden estar en el mismo archivo (como en este caso) o en archivos independientes ubicados en servidores distintos. En ese caso, deberá incluir un URI completo (incluido el identificador de fragmentos) como por ejemplo rdf:resource.

  
   ...



  gt;example.com
  gt;example.org

Ejemplo 10. Se muestra un conjunto de reglas que enlaza con una lista “externa” de restricciones del sistema anfitrión.

Esto le permite crear un archivo estable para las etiquetas y, si lo desea, generar después de manera dinámica la lista de restricciones del sistema anfitrión.

Aquellas etiquetas aplicables a un sólo tipo de material pueden incluirse en un archivo independiente. Podrá configurar un archivo de etiquetas definidas por defecto (con un conjunto de reglas) y enlazar todos los elementos al mismo. A continuación, podrá crear un archivo de etiqueta totalmente independiente para una página en particular y que incluya un enlace específico hacia dicha etiqueta.

En resumen, determine lo que mejor se adapta a sus necesidades, ya que probablemente funcionará en la práctica.

El sitio Web de ICRA incluye una herramienta en línea capaz de identificar la etiqueta correcta para una cierta dirección URL14.

Versión 1.0.1: se ha añadido una sección que trata sobre la creación de un enlace hacia icra.org/sitelabel (sección 9). Se ha modificado la numeración de las secciones subsiguientes.

Versión 1.0.2 Modificación de la documentación referente a “hostRestriction” (restricciones del sistema anfitrión) para incluir la propiedad “hasHostRestrictions” y la categoría “Hosts”.

Versión 1.0.3 Se ha añadido la sección referente al documento de etiquetado utilizando el sistema PICS.

Enlaces y referencias