best microsoft windows 10 home license key key windows 10 professional key windows 11 key windows 10 activate windows 10 windows 10 pro product key AI trading Best automated trading strategies Algorithmic Trading Protocol change crypto crypto swap exchange crypto mcafee anti-virus norton antivirus Nest Camera Best Wireless Home Security Systems norton antivirus Cloud file storage Online data storage
tes

Torre de Babel Ediciones

Conexionismo – Historia de los modelos conexionistas de la cognición

 

VI.1. Hasta la primera mitad de nuestro siglo

VI.2. Años cincuenta y sesenta

          VI.2.1. La memoria asociativa

          VI.2.2. El reconocimiento de patrones

          VI.2.3. Limitaciones de perceptrones y adalines elementales

VI.3. Años setenta y ochenta

Volver al índice

  Las primeras aportaciones destacables provienen de la neurofisiología: Luria, Lashley y Hebb se enfrentaron a las doctrinas dominantes a finales del siglo XIX, doctrinas que defendían el carácter localista del almacenamiento y de las funciones del cerebro; frente a estas doctrinas defendieron una concepción distribuida de los sistemas de procesamiento y memoria del cerebro. Sus investigaciones demostraron que la especialización podía darse en relación a grandes regiones del cerebro, pero en absoluto en las neuronas singulares. Lashley llevó tan lejos la hipótesis distribuida que postuló el carácter equipotente del cerebro (cualquier región del cerebro puede realizar cualquier tarea determinada).
De los tres autores citados es sin duda Donald Hebb el más importante en relación con desarrollo del conexionismo, particularmente a partir de su libro publicado en 1949 La organización de la conducta. Hebb defendió la conexión entre psicología y fisiología, propuso la tesis del carácter distribuido de la información en unidades informativas y formuló uno de los primeros procedimientos de aprendizaje (procedimiento que algunos autores creen que ya había sugerido Santiago Ramón y Cajal): si un conjunto de neuronas conectadas entre sí se activan repetidamente, sus sinapsis aumentan su conductividad, o de otro modo: conjuntos de neuronas sincrónicamente activadas tienden a organizarse en conjuntos conectados.
Estas ideas de Hebb han resultado particularmente fecundas. Por ejemplo, ya en 1954 Albert M. Uttley demostró en The Classification of Signals in the Nervous System que redes entrenadas con el modelo de aprendizaje hebbiano eran capaces de reconocer patrones simples binarios (111000, 110111, …) en clases (por ejemplo las que comienzan por 110).
El siguiente hito reseñable se refiere a la aportación del neurofisiólogo Warren McCulloch y el matemático Walter Pitts: en 1943 publicaron A logical calculus of the ideas immanent in nervous activity. El artículo de McCulloch y Pitts fue importante, entre otras razones, porque en él se trata al cerebro como a un organismo computacional. Propusieron la construcción de máquinas de computar con una estructura abstracta similar a la que creyeron encontrar en las redes neuronales biológicas, aunque, a diferencia de las redes conexionistas actuales, dirigidas por un enfoque lógico y no uno probabilístico. Dieron más importancia al aprendizaje que a disposiciones innatas en la formación de las conexiones entre las unidades, y demostraron que redes neuronales sencillas conectadas entre sí mediante sinapsis excitadoras e inhibidoras y asignando un valor umbral para la activación de la unidad de salida, eran capaces de representar adecuadamente las leyes lógicas fundamentales. A estas neuronas sencillas las llamaron neuronas “formales”; actualmente a las redes constituidas por dichas unidades se las suele llamar redes de McCulloch-Pitts. Aunque intentaron modelar aspectos elementales de las neuronas biológicas, las neuronas formales eran simplemente conmutadores lógicos, semejantes a los circuitos lógicos que se pueden crear mediante interruptores y por los que puede fluir la corriente eléctrica.
En 1947 McCulloch y Pitts escribieron How We Know Universals: The Perception of Auditory and Visual Formas, obra en la que trataron el problema del reconocimiento de patrones o problema del reconocimiento de variaciones de un mismo patrón y en la que presentaron dos redes. La primera tenía como objetivo reconocer propiedades comunes en distintos individuos (propiedades invariantes del mismo patrón); la segunda era capaz de generar el patrón a partir de ejemplos de dicho patrón. Hicieron una interpretación biológica de estas redes suponiendo que las redes neuronales de los córtices auditivo y visual eran redes del primer tipo y que el colículo superior (involucrado en el control del movimiento de los ojo) era una red del segundo tipo.
VI.2. AÑOS CINCUENTA Y SESENTA

En la década de los cincuenta las redes neuronales se utilizaron para dar cuenta de dos capacidades importantes de la mente humana: la memoria asociativa y el reconocimiento de patrones.

VI.2.1. La memoria asociativa

Empecemos con la memoria asociativa: la asociación entre recuerdos es un hecho conocido desde hace mucho tiempo; cuando dos recuerdos tiene algún aspecto común quedan ligados entre sí de tal modo que uno puede evocar a otro.
El primer trabajo en este campo corresponde a Wilfrid K. Taylor con su obra de 1956 Electrical Simulation of Some Nervous System Functional Activities. Taylor propone una red en tres capas: una con unidades sensoriales, otra con unidades asociativas y la última con unidades motoras. Los pesos de las sinapsis son modificables y las unidades ya no son neuronas biestables (todo-o-nada), al modo de las neuronas formales de McCulloch-Pitts, sino dispositivos analógicos. El procedimiento de entrenamiento es la regla de Hebb: se aumentan los pesos activados si se activan las unidades motoras deseadas. Inicialmente se le presentan pares de patrones; de ese par de patrones uno provoca una respuesta precisa en las neuronas motoras y el otro no; mediante el aprendizaje, la red consigue que estos últimos patrones, los que originariamente no provocaban la respuesta en las neuronas motoras, ahora sí lo hagan. En este sentido se puede decir que la red consigue asociar patrones sensoriales diferentes, y muestra un comportamiento parecido al condicionamiento pavloviano. Además en su red, la memoria asociada se almacena en el patrón de pesos y por lo tanto de forma distribuida.
En trabajos posteriores Taylor construyó una red más elaborada, con sinapsis que volvían de las unidades motoras a las unidades sensoriales y con sinapsis entre unidades de la misma capa. Esta red era más eficaz en la asociación de estímulos apareados y se mostró también capaz de discriminar patrones (recogiendo por tanto las capacidades de los perceptrones y adalines). En 1964 (Cortico-Thalamic Organization and Memory) aventuró incluso una interpretación biológica de su red, sugiriendo que las áreas de asociación de la corteza cerebral y el tálamo contenían esas redes.
Las redes anteriores asocian indirectamente el elemento a y el elemento b al estar asociados ambos con c (como ocurre con el condicionamiento clásico); estudios de los años sesenta y setenta mostraron que estas redes pueden servir también para representar la memoria asociativa accesible o direccionable por el contenido; llamamos memoria accesible por el contenido a aquella que nos permite recordar ítems a partir de descripciones parciales de sus contenidos o características, incluso cuando alguna de estas descripciones es errónea. Y precisamente por esta capacidad actualmente a las redes asociativas se las llama también memorias asociativas direccionables o accesibles por contenido (ACAMs).

Volver al índice
VI.2.2. El reconocimiento de patrones 

En cuanto al reconocimiento de patrones, cabe destacar lo siguiente: en esencia el problema consiste en explicar cómo se puede reconocer que individuos distintos pertenecen, no obstante, al mismo tipo. Un caso típico de reconocimiento de patrones es nuestra capacidad de interpretar como “A” signos que sin embargo son distintos (“”, “A”, “”, “”, “”, “”), pero evidentemente esta capacidad aparece también en otros contextos: somos capaces de reconocer el rostro de una persona en distintas condiciones de luminosidad e incluso aunque cambie su peinado, su maquillaje o se deje barba; un animal debe reconocer los individuos de otra especie como siendo la presa con la que se ha de alimentar, o su posible pareja para la reproducción,…
Ya se ha citado la aportación de McCulloch y Pitts en este campo, por lo que ahora podemos referirnos a otros autores, comenzando por John von Neumann: en su escrito de 1956, Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components, mejoró las redes McCulloch-Pitts creando redes confiables: en las redes originales de McCulluch-Pitts cada unidad actuaba representando una unidad informativa y lo hacía con la lógica todo-o-nada. Esta redes no son muy confiables pues el daño en una unidad puede tener efectos catastróficos en la computación. Para resolver esta dificultad Von Neumann introdujo la redundancia en la red: una unidad informativa no se representa mediante una neurona sino mediante la activación sincrónica de un cúmulo de neuronas (por ejemplo se puede representar 1 cuando más de la mitad está activada y 0 en caso contrario). Von Neumann probó que estas redes redundantes pueden realizar cálculos aritméticos de modo muy confiable.
En 1963 Shamuel Winograd y Jack D. Cowan escribieron Reliable Computation in the Presence of Noise. En esta obra recogieron y mejoraron las ideas de Von Neumann, defendiendo una propuesta aún más distribuida del conocimiento: en las redes de Winograd-Cowan un bit o unidad de información se representaba mediante varias neuronas, como en las redes de Von Neumann, pero, y esta era la novedad, cada neurona representaba parcialmente varios bits.

La figura de Frank Rosenblatt es imprescindible par entender el desarrollo del conexionismo. En sus obras de 1958 The Perceptron, a Probabilistic Model for Information Storage and Organization in the Brain y de 1962 Principles of Neurodynamics, defiende la importancia de las redes neuronales para la computación y de los métodos probabilísticos más que de los lógicos en el uso de las redes, mejora la regla de aprendizaje de Hebb y presenta una red a la que llamó “Perceptrón”. En su versión más sencilla, el Perceptrón consta de dos capas: la de entrada o capa con unidades sensoriales y, conectada con la anterior, la de salida o capa con unidades motoras. Las unidades eran unidades McCulloch-Pitts (podían tomar simplemente los valores activado-desactivado). Inicialmente los pesos de las conexiones eran aleatorios, y el aprendizaje consistía en la modificación de los pesos de tal forma que dada una entrada se consiguiese la salida deseada. Rosenblatt encontró un sencillo procedimiento de entrenamiento con el cual la red podía dar con los pesos requeridos para tal tarea. El Perceptrón era capaz de reconocer patrones sencillos y de generalizar similitudes entre patrones. Pero a pesar de las esperanzas que muchos investigadores en este tipo de red, pronto se vio que tenía serias limitaciones, que se ejemplificaron en la imposibilidad de la red para resolver una tarea lógica aparentemente sencilla: la del problema de la disyunción exclusiva. En términos más técnicos, se vio que era incapaz de clasificar clases o patrones no separables linealmente (ver más adelante la exposición del Perceptrón y del problema citado).

En este breve recorrido de la historia del conexionismo es preciso referirse a la trayectoria de Marvin Minsky, compañero de Rosenblatt en el instituto. En sus primeros escritos mantuvo algunas tesis que, claramente, son un antecedente del conexionismo:

  • carácter relativamente indiferenciado del cerebro pues aunque se dañe una parte otras pueden realizar su función, particularmente si el daño es en una época temprana;
  • importancia del aprendizaje en la organización de las redes neuronales;
  • importancia del estudio del cerebro y del comportamiento de las neuronas para la construcción de una máquina que reproduzca aspectos sustanciales de la mente humana.

Fue él precisamente uno de los primeros en afirmar que el cerebro no es otra cosa que una “máquina de carne”. Estas tesis pertenecen a sus primeras investigaciones (con las que consiguió el grado de doctor). Sin embargo, pronto abandonó este planteamiento conexionista defendiendo la idea de que es posible comprender la mente humana prescindiendo del estudio del cerebro y atendiendo exclusivamene a sus mecanismos o comportamiento. Como se sabe, esta tesis es uno de los principios fundamentales de la psicología cognitiva tradicional, por lo que, en resumen, se podría decir que las primeras propuestas de Minsky favorecieron las tesis conexionistas y las segundas (por las que es célebre) las tesis de la psicología cognitiva clásica.

Otra importante y curiosa aportación fue la de O. Selfridge con su obra de 1959 Pandemonium: A paradigm for learning, en donde llamó “Pandemonium” a su modelo de procesamiento distribuido y paralelo de la información. Su propuesta es importante porque su modelo para el reconocimiento de patrones descansa en el procesamiento interactivo realizado por un conjunto de unidades de procesamiento; y es también curiosa porque en vez de hablar de neuronas para referirse a las unidades de procesamiento les dió el nombre de “demonios” (incluso en los libros que explican el modelo se los dibuja como pequeños diablillos). Es habitual presentar este modelo como un intento de comprender el reconocimiento de las letras del alfabeto. Más adelante se presenta el Pandemonium con con cierto detalle.

Bernard Widrow y Marcial Hoff (Adaptive Switching Circuits,1960) inventaron una variante del Perceptrón y un nuevo procedimiento de aprendizaje, la regla delta del aprendizaje. Llamaron “adaline” a su red (por adaptive linear neuron, neurona lineal adaptativa). En realidad, la única diferencia con el Perceptrón es el procedimiento de aprendizaje o entrenamiento que utilizaron. Era también una red de dos capas (capa de entrada y capa de salida) interconectas, y compuestas por unidades biestables. Su finalidad era también el reconocimiento de patrones. El adaline fue la primera red neuronal aplicada a un problema real (como filtro para eliminar los ecos en las líneas telefónicas) y se ha usado comercialmente durante varias décadas.

Volver al índice

VI.2.3. Limitaciones de perceptrones y adalines elementales

Marvin Minsky y Seymour Papert, publicaron en 1969 Perceptrons: An introduction to Computational Geometry: en este libro estudiaron los perceptrones y demostraron que los perceptrones y adalines elementales (los que constan sólo de dos capas) eran incapaces de distinguir entre patrones tan sencillos como T y C, ni de llevar a cabo tareas lógicas simples, como la de decidir la tabla de verdad de la disyunción exclusiva; probaron matemáticamente que dichas redes, aunque pudiesen modificar sus pesos mediante reglas de aprendizaje, no podían resolver más que problemas linealmente separables. Además, ampliaron sus críticas conjeturando que esta dificultad no se podría superar añadiendo unidades ocultas en redes multicapa. Esto último se demostró falso a partir de 1986, cuando se descubrió la regla delta generalizada y la validez de su uso en redes con capas ocultas. Este tipo de redes y la regla citada permitió resolver el problema más famoso planteado a los perceptrones y adalines, el problema de la disyunción exclusiva antes citado. Se suele indicar que como consecuencia de las críticas de estos autores las autoridades americanas dirigieron sus fondos a la inteligencia artificial y la psicología cognitiva clásica, con el consiguiente freno de la investigación en los modelos de computación conexionista.

VI.3. AÑOS SETENTA Y OCHENTA

J. A. Anderson escribió en 1973 el artículo  A theory for the recognition of items from short memorized lists y en 1977 Neuronal models with cognitive implications. En estos escritos presentó análisis matemáticos de algunas propiedades de las redes neuronales y defendió la relevancia de las representaciones distribuidas en distintos campos de la psicología, por ejemplo en el del aprendizaje de conceptos; sus investigaciones fueron también importantes en el campo de la memoria asociativa por contenido y de nuevos modelos de redes.
Stephen Grossberg es uno de los más destacados investigadores en el campo conexionista; sus propuestas aparecen ya en los años sesenta y continúan en nuestros días. Ha escrito muchos libros y desarrollado diversos modelos de redes (tal vez la más conocida es la red que propuso en 1967, Avalancha, para el reconocimiento del habla y el aprendizaje del movimiento de los brazos de un robot); además de realizar las primeras investigaciones sobre el aprendizaje competitivo, subrayó la importancia de los modelos conexionistas en los campos de la percepción y de la memoria. Destaca su libro de 1982 Studies of mind and brain

       Hofstadter (Gödel, Escher, Bach: An eternal golden braid, 1979 y Metamagical themas, 1985) defiende la existencia de dos niveles de procesamiento, el que estudia la psicología cognitiva clásica (nivel estructural) y un nivel de procesamiento más bajo, y en el que se sitúan los trabajos del conexionismo (nivel microestructural), de ahí que en ocasiones se hable del conexionismo como un enfoque que analiza la “microestructura de la cognición” para comprender los fenómenos cognitivos.
Es en los años ochenta cuando el conexionismo empieza a tener un éxito considerable, y en esta trayectoria es fundamental la obra de G. E. Hinton, y J. A. Anderson editada en 1981 Parallel models of associative memory, y la obra de J. A. Anderson de 1983 Cognitive and psychological computation with neural models. En esta última Anderson estudia el hardware del sistema nervioso real y propone modelos neuronales sencillos basados en los biológicos y destinados a explicar los procesos cognitivos.
J. A. Feldman y D. H. Ballard (1982: Connectionist models and their properties. Cognitive Sciencie, 6) desarrollaron muchos de los principios computacionales del enfoque Procesamiento Distribuido Paralelo (PDP), utilizaron por primera vez el nombre de conexionismo para este enfoque, y criticaron el enfoque tradicional de la Inteligencia Artificial destacando su poca plausibilidad biológica. Pero sin duda el impulso definitivo a la investigación conexionista tiene como protagonistas a David. E. Rumelhart, James. L. McClelland y varios investigadores más que forman lo que se ha llamado “grupo PDP”, y culmina con la aparición de lo que se ha considerado como la “Biblia conexionista”, “Parallel Distributed Processing: Explorations in the microestructure of cognition” (dos volúmenes) editada por Rumelhart y McClelland en 1986. En esta obra se tratan importantes cuestiones pero sin duda destaca la demostración de cómo las redes con más de dos capas pueden solucionar las objeciones matemáticas propuestas por Minsky y Papert y que tanto limitaron el desarrollo en la investigación de redes neuronales.

A partir de Parallel Distributed Processing se suceden multitud de investigaciones, artículos y congresos, tanto en los campos de la Inteligencia Artificial como en los de la psicología, convirtiéndose el conexionismo en un movimiento revolucionario en el panorama de la ciencia cognitiva. En este contexto se crean la Sociedad Europea de Redes Neuronales (ENNS) y la Sociedad Internacional de Redes Neuronales (INNS), sociedades que organizan congresos y reuniones anuales y editan revistas para la divulgación de las investigaciones en este campo de investigación, revistas entre las que destacan Neural Networks (revista oficial de la Sociedad Internacional de Redes Neuronales); Network, Computation in Neural System; Transactions on Neural Networks; Nerual Networks Council; Neural Computation y International Journal of Neural Systems
De octubre de 1987 a febrero de 1988, el Instituto Tecnológico de Massachussets (MIT), patrocinado por la Oficina de Tecnología Táctica de la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa de Estados Unidos (DARPA/TTO) llevó a cabo la revisión de la investigación y tecnología basada en redes neuronales, revisión que se plasmó en el libro Neural Network Study (Darpa 88).

En España también se ha creado una sociedad para la investigación en redes neurales que ya ha organizado varios congresos, se organizan seminarios (precisamente el que se realizó en la UNED en el curso 87-88 dio lugar a la edición de Introducción al Procesamiento Distribuido en Paralelo, Alianza Editorial, en donde se reúnen los capitulos más importantes de Parallel Distributed Processing). El programa europeo de investigación ESPRIT ha financiado diversos proyectos en este campo, proyectos en los que, en España, han participado las universidades Politécnica y Autónoma de Madrid, la Politécnica del País Vasco, el Centro de Estudios Avanzados de Blanes, el Instituto de Cibernética del CSIC y el Instituto de Ingeniería del Conocimiento (IIC), entre otros.

Volver al índice

tes