De los datos sobre patentes de Business Intelligence
Caso de Estudio Salmo
Zeljko Tekica*, Miroslava Drazicb, Dragan Kukolja, Milana Vitasb aUniversity of Novi Sad, Faculty of Technical Sciences, Trg Dositeja Obradovica 6, Novi Sad, Serbia bRT-RK Institute for Computer Based Systems, Narodnog fronta 23a, Novi Sad, Serbia
Resumen En este trabajo se describe SALMO , una herramienta de software desarrollada recientemente para la inteligencia de negocios y su funcionalidad a travs de varios estudios de caso. Bsqueda de Patentes y Anlisis para Gestin (Salmo). La herramienta rene los datos de patentes a partir de bases de datos a disposicin del pblico, recoge y analiza los parmetros bibliogrficas de las patentes, pero tambin lo hace la minera de texto. Los datos de alta dimensin que figuran en los documentos de patentes se transforman en mucho menor espacio de dimensionalidad (2D o 3D), agrupan y se visualizan. La funcionalidad y la usabilidad SALMO se demuestra a travs de tres estudios de caso de anlisis, comparacin y evaluacin de las fortalezas y debilidades de las diferentes carteras de patentes. 1. Introduccin Hace aproximadamente 600 aos primeras patentes, en forma de cartas abiertas con sello real, se emitieron a vidrieros de Venecia. Hoy en da, el sistema de patentes promete su titular el derecho a un monopolio temporal sobre una invencin tcnica, a cambio de la publicacin de esa invencin. A pesar de que no estaba del todo claro desde el principio, el sistema de patentes surgido como una herramienta para facilitar la difusin de informacin y acceso al conocimiento. Por ejemplo, a cambio de una patente concedida, y el monopolio de veinte aos sobre el proceso hasta ahora desconocido en Inglaterra la fabricacin de vidrio, Juan de Utynam (el destinatario de la patente Ingls primero conocido en 1449), tena la obligacin de ensear a su proceso a los ingleses nativos [1]. Esa misma funcin de transmisin de informacin y conocimiento avanzado, es muy importante que el sistema de patentes. Arraigado en caracterstica inherente de patentes - a revelar todos los detalles sobre los productos y procesos protegidos, las patentes ofrecen informacin tcnica extremadamente valiosa. Algunos autores estiman que aproximadamente el 80% de toda la informacin cientfica y tcnica se puede encontrar slo en los documentos de patentes [2]. Adems de los datos tcnicos, el documento de patente proporciona jurdica, as como las empresas y las polticas pblicas la informacin pertinente. La disponibilidad de toda esta informacin dentro de patentes ofrece un espectro completo de posibilidades para su uso en reas clave de la gestin de la tecnologa, incluyendo [3, 4]: monitoreo competidores, la evaluacin de la tecnologa, la identificacin y evaluacin de las fuentes potenciales para la generacin externa de conocimiento tecnolgico y la investigacin y gestin de la cartera D.
Sin embargo, no es fcil de extraer informacin til de las patentes ni para rastrear evidencia sobre todas las patentes que pueden ser relevantes. Indicadores mundiales de propiedad intelectual para el ao 2012 [5] muestran que a pesar de la recesin econmica, alrededor de 2,14 millones de aplicaciones fueron presentadas y casi un milln de patentes fueron emitidas en todo el mundo en 2011. Con ms de 65 millones de solicitudes de patentes desde que se estableci el sistema de patentes, han sido publicado; 7880000 patentes en vigor en 2011 y el nmero de patentes concedidas duplicado durante los ltimos 15 aos [5] es posible imaginar lo duro que puede ser para hacer un seguimiento de todas las patentes interesantes o potencialmente dainos. Otras barreras importantes para el uso ms eficiente de la informacin sobre patentes son: aumento del nmero de pginas por patente, difcil idioma utilizado en las patentes y la falta de capacidad para entender las relaciones entre las patentes. En consecuencia, las principales partes interesadas en el proceso de I + D - profesionales de las patentes, los investigadores y los inventores, emprendedores, pymes y empresas comerciales necesitan ayuda de herramientas de software que permitan la transformacin de los datos de patentes en bruto en informacin significativa y til para la toma de decisiones empresariales. Varias herramientas de software se han desarrollado en este campo [2, 6]. Analizan las patentes individuales, as como carteras de patentes; recuperar patentes y hacer estadsticas bsicas, as como visualizar, mapa y paisajsticos de los mismos datos. La mayora de estas herramientas utilizan mtodos estadsticos para analizar los datos de patentes en un perodo determinado, y representan las tendencias de patentes por diversos grficos y tablas. En este artculo presentamos SALMO [7, 8], herramienta de software desarrollada recientemente y demostrar su funcionalidad a travs de varios estudios de caso.
El resto del trabajo se organiza de la siguiente manera. En la Seccin 2 se describen los mdulos funcionales del Salmo y la interfaz de usuario, mientras que en la Seccin 3 funcionalidad SALMO se demuestra a travs de tres estudios de caso. Por ltimo, en la Seccin 4 se resume la conclusin con un resumen de los resultados y una mayor investigacin. 2. SALMO Toda la informacin que se encuentra en un documento de patente se recoge y se verifica de conformidad con las normas acordadas internacionalmente. Se presenta en forma sistemtica, como una combinacin de los datos estructurados y no estructurados. Informacin tcnica se deriva de la descripcin y los dibujos de la invencin que describen los detalles tcnicos de la invencin, ilustran ejemplos de trabajo y mostrar cmo llevar a cabo la invencin a la prctica. Informacin legal tiene su origen en las reivindicaciones, que definen el alcance de la proteccin para la invencin y de algunos de los datos bibliogrficos (fecha de prioridad, fecha de presentacin, los documentos de patentes relacionadas, etc.) Por ltimo, las empresas y policyrelevant pblica informacin se deriva de los datos de identificacin del inventor, fecha de presentacin, el pas de origen, etc; y de un anlisis de las tendencias de presentacin. La mayora de la informacin en el documento de patente se da en la forma de texto estructurado. Slo los datos bibliogrficos estn estructurados. Se encuentran en la primera pgina y proporcionan informacin bibliogrfica sobre la patente o solicitud de patente concedida, que incluye el nmero de documento, la presentacin y publicacin fechas, nombre de los inventores, los cesionarios y direcciones, etc SALMO (Bsqueda de Patentes y Anlisis para Landscaping y Gestin) [7, 8] es una herramienta de software diseada para analizar los datos de patentes tanto, estructurados y no estructurados. Se compone de los siguientes mdulos funcionales (Fig. 1): robot web, clustering texto, escalamiento multidimensional, visualizacin, anlisis de los cdigos IPC, extraccin y visualizacin de citando y cit patentes, mdulo de informe de progreso, mdulo para el registro de datos en el archivo CSV, y la evaluacin de una patente. Los mdulos se desarrollan en los lenguajes de programacin Java y PHP, mientras que la base de datos se desarrolla en MySQL. Software front-end (robot web) recoge datos sobre patentes de bases de datos a disposicin del pblico (USPTO y EPO), los anlisis de sus parmetros bibliogrficos (como: ttulo, inventor (s), solicitante, fecha de solicitud, fecha de prioridad, pas de publicacin, nmero de prioridad, pas prioritario, las referencias citadas por la patente, las patentes que citan la patente, abstracto, la clasificacin internacional de patentes) y traducir los datos no estructurados (texto libre en el documento de patente) de forma estructurada [7, 9]. La informacin recogida se archiva en la base de datos para su uso futuro. El segundo mdulo es el procesamiento de textos. Su principal objetivo es extraer los atributos importantes y palabras clave de una estructura de datos de patentes.
Anlisis de texto incluye anlisis del texto de la patente (resumen, descripcin, las reivindicaciones o de otros datos) utilizando frecuencia de los trminos - frecuencia inversa de documento (tf-idf) como un sistema de ponderacin para la extraccin de palabras clave, aunque otros mtodos pueden ser utilizados para la clasificacin de flujos de texto por palabra clave [10]. Los resultados han demostrado que el anlisis de las alegaciones ofrece los resultados ms precisos y pertinentes [11]. Sobre la base de palabras clave extrados del conjunto de datos determinado (coleccin de documentos de patente) se forma la matriz dimensional de alta. Se transforma en mucho menor espacio de dimensionalidad (2D o 3D), el mantenimiento de la estructura ms similar a la original, utilizando el escalamiento multidimensional (MDS) esquema. La salida del MDS es una matriz de 2 dimensiones que se utiliza como insumo para el tercer mdulo - la agrupacin. El espacio de datos de patentes reducida est agrupado utilizando la tcnica de la agrupacin sin supervisin con el fin de agrupar la coleccin sin etiquetar dado de patentes en grupos significativos. Este enfoque permite extraer informacin til de las patentes a travs de la identificacin y exploracin de palabras clave y frases clave de los datos textuales en las patentes. Ha habido muchos enfoques diferentes de agrupamiento. La comparacin de las actuaciones de cuatro tcnicas de agrupamiento (es decir, k-medias, las de gas neural, c-means borroso y ronn), se demostr que todos tienen actuaciones similares de agrupamiento y clasificacin de la precisin y as cualquier podra ser utilizado en realizaciones prcticas de patentes herramientas de anlisis de datos [12]. SALMO est basada en fuzzy c-means clustering algoritmo [12], donde cada patente tiene un grado de pertenencia a grupos, ms que pertenecer a un solo clster. Por ltimo, el Salmo permite visualizaciones de datos de baja dimensionalidad de alta, as como. Los datos de alta-dimensionales se visualizan mediante la asignacin de los documentos y las agrupaciones en proporcin el uno al otro, es decir, la creacin de mapas de patentes. Los documentos con temas similares aparecen cerca uno del otro en mapas. Esto hace que sea muy fcil de localizar el ms reas desarrolladas en la tecnologa. Tambin muestra los valores atpicos en los datos, las patentes que no tienen mucho que el tema, pero se encuentran en los datos por accidente. Datos de baja dimensin (estructurados) se presentan como grficos de barras y grficos circulares de datos bibliogrficos y tambin podra ayudar a una mejor comprensin de las reas de tecnologa, cambios en la tecnologa el desarrollo, la competitividad de la compaa etc SALMO recoge y almacena los datos de patentes (el acceso a la pgina web y la descarga de una pgina web con los datos de la patente; analizar la pgina web; Almacenar datos en la base de datos) dentro de 2s (velocidad de descarga / carga 26/1 Mb / s). Tiempo de procesamiento de TF-IDF para un grupo de 1.800 patentes es de unos 15 minutos, mientras que el MDS y la visualizacin se realizan dentro de 3s [7].
2.1. interfaz de usuario Salmo es una herramienta de software desarrollado para analizar un mayor nmero de patentes y para servir a mltiples usuarios en red al mismo tiempo en el servidor - Forma cliente. Todo el sistema est basado en casos, donde se realiza cada caso del grupo de patentes seleccionadas en base a criterios definidos de los usuarios. Criterios para la creacin de un nuevo caso se pueden basar en: cesionario, Cdigos IPC y citado y citando las patentes. Adems de estos criterios, el usuario puede crear un nmero ilimitado de criterios para la seleccin de las patentes basadas en palabras clave y atributos bibliogrficas. Cada caso es inalterable despus de la creacin. Sin embargo, es posible crear un nuevo caso con un conjunto diferente de patentes que combinan los casos existentes. Las patentes deben introducir directamente el nmero por nmero (PID) o como lista en. Forma csv.
La interfaz de usuario (Fig. 2) se construye usando PHP, HTML y lenguajes de programacin de JavaScript, as como la biblioteca jQuery JavaScript DataTables y Highcharts biblioteca para la visualizacin de los resultados del procesamiento de datos.
3. Estudios de caso En esta seccin se demuestra la funcionalidad salmo. Anlisis y evaluacin de la fuerza la cartera de patentes de la compaa son las tareas que re-producen en un trabajo diario de un analista de patentes. Por lo tanto, se seleccionan estos casos de uso para ilustrar la funcionalidad salmo.
3.1. Caso # 1
En el primer caso se seleccionaron 147 patentes en Estados Unidos que pertenecen a MPEG-2 la cartera de patentes esencial. Una patente es esencial para un estndar, si hacer un producto o el uso de un mtodo, el cumplimiento de la norma, requiere el uso de la patente. La tarea consista en indicar la intensidad de algunas empresas en MPEG-2 campo que comparan las patentes esenciales y patentes que citan ellos. Higo. La figura 3 muestra las reas especficas en las que dos empresas seleccionadas: LG (tringulos verdes) y Toshiba (cuadrados rojos) tienen ventajas o desventajas que comparan con el conjunto de las patentes esenciales (azul de tecnologa rombos). De la figura. 3, es posible concluir que LG tiene una fuerte posicin en la codificacin de audio y la transmisin de vdeo, mientras que Toshiba est en mejor posicin en la codificacin / decodificacin de seales digitales. Por otra parte, ambas compaas estn en buenas situacin en las zonas de codificacin / decodificacin de vdeo y de compresin de vdeo. Al mismo tiempo. Fig. 3 verifica el salmo de capacidad de reunir a las patentes en grupos significativos de tecnologa. Es decir, estas patentes se analizaron por primera vez por los expertos y agrupado. Los puntos suspensivos en la fig. 3 se colocan, adems, con el propsito de ilustracin solamente, para mostrar satisfactoria concordancia entre los resultados de las herramientas y de derechos humanos de los expertos.
3.2. Caso # 2 El conjunto de datos que fue seleccionado en el segundo caso se compone de 19 patentes (adicionales: patentes originales) que pertenece en su mayora al campo de la tecnologa de distribucin de contenidos multimedia y representan la cartera de una PYME. La tarea consista en encontrar empresas y evaluar la fuerza de sus carteras en relacin con la cartera de este PYME.
Con la herramienta SALMO se encontr que Microsoft tiene el mayor nmero de patentes entre las 115 patentes que fueron citando patentes originales (citas a plazo) y que fueron citados por ellos (citas atrasadas) indicando que era la empresa ms activa en el campo. Por lo tanto, Microsoft fue elegido como un objetivo principal para el control. El anlisis de las patentes originales utilizando clustering basado en los cdigos de la CIP, se detectaron dos cdigos IPC ms comunes (G06F21/00 y H04l9/00). Entonces se recuperaron todas las patentes de Microsoft que contienen ambos de estos dos cdigos (19 patentes en total), as como todas las patentes de Microsoft que contienen al menos uno de estos dos cdigos (726 patentes en total). Higo. La figura 4 muestra cmo 19 patentes originales coincidan con 726 patentes de Microsoft, mientras que la fig. La figura 5 muestra cmo 19 patentes originales coincidan con 19 patentes de Microsoft. Se puede observar a partir de las figuras 4 y 5 que, aunque el Microsoft tiene un gran nmero de patentes en la misma rea tecnolgica como el SME, estas patentes no se superponen en el espacio 2D, lo que significa que no estn estrechamente relacionados entre s. A saber, las patentes de Microsoft se concentran en una parte del espacio 2D, mientras que las 19 patentes originales se encuentran en la otra parte. Patente original que es el ms cercano a las patentes de Microsoft en caso de dos (el nico cuadrado verde entre los tringulos en. Fig. 5), es la patente original ms cercana a las patentes de Microsoft en caso de que uno as (diamante rojo entre los cuadrados densamente espaciados en la figura. 4 ). Adicional experiencia (humano) demostr que las patentes de Microsoft ms cercanas estn relacionados con algunos esquemas de cifrado para contenidos multimedia por streaming que est protegido por la gestin de derechos y no especialmente relacionados con la mejora de los ingresos de derechos de autor, como las patentes de las PYMES. Esta era una manera de verificar la exactitud de la herramienta. 3.3. Caso # 3 En el tercer caso, las patentes que estn relacionadas con el sistema operativo Android estn en foco. La tarea fue analizar los litigios de patentes relacionadas con el sistema operativo Android y desde esa perspectiva se reflejan en la decisin de Google para comprar Motorola Mobility. Buscando a travs de litigios relacionados con el sistema operativo Android, entre 2009 y 2012, se detectaron 55 patentes [13]. Los anlisis realizados por la herramienta indican que estas 55 patentes objeto de litigio citados 22 patentes de Motorola Mobility. Higo. La figura 6 muestra cmo 55 patentes objeto de litigio coinciden con 22 patentes de Motorola Mobility. Los anlisis de las patentes detectados y litigado revelaron que las patentes de Motorola estn relativamente bien distribuidas y relacionados con las patentes que pueden daar a Google. A partir de ese momento, muchos de los que sostuvo que la decisin de Google para comprar Motorola Mobility est parcialmente arraigada en su cartera de patentes estaban en lo cierto. Por otro lado, Motorola no tiene suficientes patentes prximas a las patentes en virtud litigios, por lo que parece que Google va a tener que hacer varios ms compras en el mercado para estar en la posicin ms segura.
4. Conclusin En este trabajo presentamos SALMO - una herramienta para el anlisis de datos de patentes y visualizacin desarrollado por acadmicos de la Universidad de Novi Sad y profesionales de RT-RK Computer Based Systems LLC. Su verdadero poder est en el anlisis de las carteras con un mayor nmero de patentes. Esto queda demostrado en tres estudios de caso de anlisis, comparacin y evaluacin de las fortalezas y debilidades de las carteras de patentes de las empresas. Anlisis de datos de patentes seguirn siendo difcil, el tiempo y la mano de obra que consume el trabajo de los expertos, pero SALMO podran ayudar a los profesionales involucrados en la gestin IP a centrar su tiempo y esfuerzos en las patentes ms interesantes y prometedores, sino tambin para ahorrar tiempo en preliminares agruparlos. Por ejemplo, con base en SALMO resulta que es ms fcil apuntar tecnologa reas dbiles o para seleccionar con mayores patentes de probabilidad interesantes por infraccin demanda a. Sabiendo que las patentes son interesantes y por qu son interesantes es importante, especialmente para los que toman decisiones sobre el uso y la gestin de las patentes. Los resultados presentados en este documento son el resultado de la versin actual del Salmo y se espera seguir mejorando en el prximo perodo. La herramienta se puede utilizar para extraer la representacin de datos ms significativo desde el gran conjunto de patentes. La investigacin adicional se destinar a la mejora de herramientas de procesamiento de texto, usando WordNet para comparar palabras en el texto y las estructuras de SAO para el anlisis de textos. Adems, el trabajo futuro se concentrar en ampliar los datos de prueba establecidos con el fin de comprobar la veracidad de los resultados y mejorar las tcnicas de minera de datos, clustering y mdulos de visualizacin.