Texto universitario

_____________________________

 

Módulo 5. Soluciones a sistemas lineales 

 


Uno de los problemas más comunes en la computación numérica es resolver el sistema lineal Ax = b; es decir, para A y b dados, encontrar x tal que se cumpla la ecuación. Se dice que el sistema es consistente si existe tal x, y en ese caso una solución x puede escribirse como Imagen, donde Imagen es la inversa de A. Si A es cuadrada y de rango completo, podemos escribir la solución como Imagen. Nosotros nunca calcularíamos Imagen solo para poder multiplicarlo por b para formar la solución Imagen.


Dos temas que discutimos tienen mayor relevancia en los cálculos para aplicaciones científicas. La primera es cómo evaluar las dificultades numéricas esperadas para resolver un problema específico. Un problema específico se compone de una tarea y datos, o entrada de la tarea. Algunas tareas son naturalmente más difíciles que otras; por ejemplo, generalmente es más difícil resolver un problema de optimización restringido que resolver un sistema de ecuaciones lineales. Sin embargo, algunos problemas de optimización restringida pueden ser muy "pequeños" e incluso tener una solución simple de forma cerrada; mientras que un sistema de ecuaciones lineales puede ser muy grande y estar sujeto a graves errores de redondeo. Para cualquier tarea específica, puede haber formas de evaluar la "dificultad" de una entrada específica. Una medida de dificultad es un "número de condición", y discutimos en seguida  un número de condición para la tarea de resolver un sistema lineal.


Otro tema ilustrado por las técnicas discutidas es la diferencia entre métodos directos y métodos iterativos. Los métodos para factorizar una matriz son métodos directos; es decir, hay una secuencia fija de operaciones (posiblemente con algunos pivotes en el camino) que produce la solución. Los métodos iterativos no tienen un número fijo predeterminado de pasos; más bien, deben tener una regla de detención que dependa de los propios pasos. La mayoría de los métodos de optimización son ejemplos de métodos iterativos. Todos los métodos para obtener valores propios (para matrices cuadradas generales mayores de 4 × 4) son necesariamente iterativos.


Un método iterativo se caracteriza por una secuencia de soluciones parciales o aproximadas, que indico con un superíndice entre paréntesis: s(0), s(1), s(2),... Es necesario un punto de partida. Normalmente lo indexo como "(0)". El algoritmo iterativo es esencialmente una regla para calcular s(k) dado s(k − 1).


También es necesario un criterio de parada. La solución parcial en cualquier punto de la secuencia a menudo consta de varias partes; por ejemplo, en un problema de optimización, hay dos partes, el valor de la variable de decisión y el valor de la función objetivo. La regla de detención puede basarse en la magnitud del cambio en una o más partes de la solución. Por supuesto, un criterio de detención basado simplemente en el número de también es posible realizar iteraciones y, de hecho, suele ser una buena idea además de cualquier otro criterio de parada.


Discutimos métodos directos para resolver sistemas de ecuaciones lineales. Un método directo utiliza un número fijo de cálculos que, en aritmética exacta, conducirían a la solución. También podemos referirnos a los pasos en un método directo como "iteraciones"; pero hay un límite fijo en el número de ellos que depende solo del tamaño de la entrada.


Los métodos iterativos a menudo funcionan bien para matrices muy grandes y/o dispersas. Otro principio general en los cálculos numéricos es que una vez que se ha obtenido una solución aproximada (en la computación numérica, casi todas las soluciones son aproximadas), a menudo es útil ver si la solución se puede mejorar. Este principio está bien ilustrado por el "refinamiento iterativo" de una solución a un sistema lineal. El refinamiento iterativo es un método iterativo, pero el método que produce la aproximación inicial puede ser un método directo.


5.1 Condición de las matrices


Se dice que los datos están "mal acondicionados" para un problema o cálculo en particular si es probable que los datos causen dificultades en los cálculos, como una gran pérdida de precisión. De manera más general, el término "mal condicionado" se aplica a un problema en el que pequeños cambios en la entrada dan como resultado grandes cambios en la salida. En el caso de un sistema lineal

Ax = b,

el problema de resolver el sistema está mal condicionado si pequeños cambios en algunos elementos de A o b causarán grandes cambios en la solución x. El concepto de mal condicionamiento es una generalización heurística de la propiedad de mal planteamiento de Hadamard.


Considere, por ejemplo, el sistema de ecuaciones


1.000x1 + 0.500x2 = 1.500,

0.667x1 + 0.333x2 = 1.000.


Se ve fácilmente que la solución es x1 = 1.000 y x2 = 1.000.

Ahora considere un pequeño cambio en el lado derecho:


 1. 000x1  + 0. 500x2  = 1. 500,

 0. 667x1  + 0. 333x2  = 0. 999.


Este sistema tiene la solución x1 = 0.000 y x2 = 3.000. Ese es un cambio relativamente grande.


Alternativamente, considere un pequeño cambio en uno de los elementos de la matriz de coeficientes:


 1. 000x1  + 0. 500x2  = 1. 500,

 0. 667x1  + 0. 334x2  = 1. 000.


La solución ahora es x1 = 2.000 y x2 = −1.000; nuevamente, un cambio relativamente grande.


En ambos casos, pequeños cambios del orden de 10−3 en la entrada (los elementos de la matriz de coeficientes o el lado derecho) dan como resultado cambios relativamente grandes (del orden de 1) en la salida (la solución). Resolver el sistema (cualquiera de ellos) es un problema mal condicionado cuando nuestras escalas relevantes son de orden 3.


La naturaleza de los datos que causan el mal condicionamiento depende del tipo de problema. El caso anterior se puede considerar como un problema geométrico para determinar el punto de intersección de dos líneas. El problema es que las líneas representadas por las ecuaciones son casi paralelas, como se ve en la figura 5.1, por lo que su punto de intersección es muy sensible a cambios leves en los coeficientes que definen las líneas.


El problema también se puede describir en términos del ángulo entre las líneas. Cuando el ángulo es pequeño, pero no necesariamente 0, nos referimos a la condición como “colinealidad”. (Este término es algo engañoso porque, estrictamente hablando, debería indicar que el ángulo es exactamente 0). En este ejemplo, el coseno del ángulo entre las líneas, de la ecuación (2.54), es 1− 2×10−7. En general, la colinealidad (o “multicolinealidad”) existe siempre que el ángulo entre cualquier línea (es decir, un vector) y el subespacio abarcado por cualquier otro conjunto de vectores es pequeño.


Imagen

Futura 5.1. Líneas casi paralelas: matrices de coeficientes mal acondicionadas, ecuaciones.


5.1.1 Número de condición


Para un problema específico, como resolver un sistema de ecuaciones, podemos cuantificar la condición de la matriz mediante un número de condición. Para desarrollar esta cuantificación para el problema de resolver ecuaciones lineales, considere un sistema lineal Ax = b, con A no singular y b = 0, como se indicó anteriormente. Ahora perturbe ligeramente el sistema agregando una pequeña cantidad, δb, para b, y sea Imagen. El sistema


Imagen


tiene una solución Imagen. (Observe que δb y δx no necesariamente representan múltiplos escalares de los vectores respectivos). Si el sistema está bien acondicionado, para cualquier norma razonable, si Imagen  es pequeño, entonces Imagen es igualmente pequeña.

De Imageny la desigualdad, para una norma inducida en A, tenemos


Imagen


Asimismo, debido a que b = Ax, tenemos


Imagen


y estas dos ecuaciones juntas implican


Imagen Ec. 6.1


Esto proporciona un límite al cambio en la solución Imagen en términos de la perturbación Imagen.


El límite en la Ec. 6.1 nos motiva a definir el número de condición con respecto a la inversión, denotado por κ (·), como


Imagen

para A no singular. En el contexto del álgebra lineal, el número de condición con respecto a la inversión es tan dominante en importancia que generalmente nos referimos a él como el “número de condición”. Este número de condición también proporciona un límite en los cambios en los valores propios debido a las perturbaciones de la matriz. (Ese límite en particular tiene más interés teórico que valor práctico). Un número de condición es una medida útil de la condición de A para el problema de resolver un sistema lineal de ecuaciones. Sin embargo, existen otros números de condición útiles en el análisis numérico, como el número de condición para calcular la varianza de la muestra o un número de condición para la raíz de una función. 


Podemos escribir la Ec. 6.1 como


Imagen


y, siguiendo un desarrollo similar al anterior, escriba


Imagen


Estas desigualdades, así como las demás que escribimos en esta sección, son agudas, como podemos ver al dejar A = I.


Debido a que el número de condición es un límite superior en una cantidad que no quisiéramos que fuera grande, un número de condición grande es "malo". Observe que nuestra definición del número de condición no especifica la norma; sólo requiere que la norma sea una norma inducida. (Una definición equivalente no se basa en que la norma sea una norma inducida). A veces especificamos un número de condición con respecto a una norma particular, y así como a veces denotamos una norma específica mediante un símbolo especial, podemos usar un símbolo especial para denotar un número de condición específico. Por ejemplo, Imagen puede denotar el número de condición de A en términos de una norma Lp. La mayoría de las propiedades de los números de condición (pero no sus valores reales) son independientes de la norma utilizada.


La matriz de coeficientes 


Imagen


Su matriz inversa es


Imagen

Es fácil ver eso


Imagen


y


Imagen


Una


Imagen


por lo tanto,


Imagen


Igualmente,


Imagen


y una


Imagen

Observe que los números de condición no son exactamente los mismos, pero están cerca. Observe también que los números de condición son del orden de magnitud de la relación entre la perturbación de salida y la perturbación de entrada en esas ecuaciones.


Aunque usamos esta matriz en un ejemplo de mal condicionamiento, estos números de condición, aunque son grandes, no son tan grandes como para causar una preocupación indebida por los cálculos numéricos. De hecho, resolver los sistemas de ecuaciones no causaría problemas a un programa de computadora.


5.2 Eigenvalores y Eigenvectores, propiedades básicas


En este apartado o estudiamos otra rama importante del álgebra lineal, muy diferente

de lo que hemos visto hasta ahora. Los problemas en esta área surgen en muchas aplicaciones en física, economía, estadística y otros campos. La razón principal porque este fenómeno se puede explicar a grandes rasgos como sigue.


Con frecuencia, los estados de un sistema físico pueden describirse mediante un

vector x de n-dimensiones y el cambio de este último en el tiempo por una matriz A n×n, de modo que el estado del sistema en algún momento posterior vendrá dado por el vector y = Ax. A menudo, tales cambios se describen mediante ecuaciones diferenciales, es decir, el vector x es una función vectorial diferenciable desconocida del tiempo que satisface una ecuación de la forma x’ = Ax. Tales ecuaciones diferenciales también conducen a la misma situación básica que queremos explicar para el caso más simple de y = Ax.


Considere el caso bidimensional, para el cual podemos expresar y = Ax como

el par de ecuaciones escalares 

Imagen


Como muestran estas ecuaciones, generalmente la matriz A mezcla los componentes de x y, en muchos de esos pasos de tiempo (especialmente en casos de dimensiones superiores), esta mezcla puede ser bastante complicada. La pregunta que nos hacemos, por tanto, es si es posible encontrar una nueva base {s1, s2} para R2 en la que tal mezcla no no ocurre, es decir, en el que los componentes se desacoplan y se desarrollan por separado como


Imagen

donde λ1 y λ2 son escalares apropiados dependiendo de la matriz A. La respuesta es frecuentemente sí, y conduce a cálculos enormemente simplificados cuando muchos de estos pasos se suceden. Ilustremos este desacoplamiento con un ejemplo.


Ejemplo 1: Un desacoplamiento de coordenadas en la acción de una matriz). Considere la matriz

Imagen

y su acción sobre un vector arbitrario x. Dejar 

Imagen

Entonces 

Imagen

Imagen


Entonces, si escribimos x e y = Ax en términos de la base {s1, s2} como


Imagen


Entonces nosotros obtenemos

Imagen

y de esto

Imagen

Por tanto, la acción de A sobre las S-componentes de x es una simple multiplicación (ver figura siguiente), mientras que en la base estándar implicaría combinaciones lineales. De manera similar, los S-componente de A2x serían Imagen y Imagen, y así sucesivamente para potencias superiores; expresiones mucho más simples que las utilizadas en la base estándar.

Imagen

En general, ¿cómo podemos encontrar una base como la del ejemplo anterior? Debemos encontrar {s1, s2} no triviales y λ1 y λ2 correspondientes tales que

Imagen


De hecho, en ese caso, sustituyendo

Imagen

Imagen

en la ecuación y = Ax, obtenemos

Imagen


de lo que se sigue que


Imagen

Veremos ejemplos más detallados más adelante. Por ahora, solo queremos basar nuestra definición fundamental en las ecuaciones 

Imagen

que se encuentran en el corazón de toda esta teoría.


Definición  de valores propios y vectores propios. Para cualquier matriz A de n×n, un escalar λ  se llama valor propio de A (o eigenvalor) si hay un vector s distinto de cero tal que


Imagen


Dicho vector s se denomina autovector de A correspondiente o perteneciente a λ. Además, para cada valor propio λ, el vector cero es siempre una solución de la ecuación Imagen, y se denomina vector propio (o eigenvector) de A que pertenece a λ.

La palabra “eigen” en alemán significa “propio” y fue adoptada al inglés, aunque algunos autores usan el valor propio y el vector propio o el valor característico y el vector característico en su lugar. La letra griego lambda Imagen es tradicional en este contexto.


Geométricamente, la Ecuación Imagen expresa el hecho de que un vector propio de una matriz A es un vector distinto de cero cuya dirección es preservada por A, y el valor propio correspondiente es el multiplicador por el cual la matriz escala este vector propio.


La definición se puede generalizar para aplicarla a las transformaciones lineales T: V V desde cualquier espacio vectorial no trivial a sí mismo, lo cual es importante en casos de dimensión infinita. La definición de matriz es un caso especial más general.

Entonces, ¿cómo resolvemos la ecuación Imagen? El procedimiento habitual es el siguiente:

Lo reescribimos como


Imagen


ya que en esta forma tenemos una ecuación muy parecida a la familiar As = 0, excepto que la matriz A es reemplazada por la matriz A − λI. Recuerde que, para cada λ sea fija, una ecuación homogénea tiene soluciones no triviales sí y solo si su matriz es singular. Por el teorema que dice A es singular sí y solo si | A | = 0. Una matriz cuadrada A es singular sí y solo si su determinante es igual a cero. Esta condición es equivalente a


Imagen


Esta es una ecuación para la incógnita λ y se llama ecuación característica de la matriz A. El lado izquierdo de la ecuación se llama polinomio característico de A. La ecuación Imagen no contiene el vector desconocido s y por lo tanto se usa para encontrar los valores propios. Para una matriz n×n, es una ecuación algebraica de grado n. Una vez que se conoce un valor de λ, lo sustituimos en la Ecuación Imagen y resolvemos esta última para s por eliminación gaussiana. El conjunto de soluciones de la Imagen para un λ dado es Nulo (A − λI) y se llama el espacio propio de A que pertenece a λ.


Ejemplo 1. Una matriz de 2×2 con dos valores propios y dos Eigenspacios dimensionales. Encuentre los eigenvalores y eigenvectores de


Imagen

La ecuación característica correspondiente es

Imagen

Expandiendo el determinante, obtenemos

Imagen

Imagen


Por tanto, los valores propios son λ1 = −1 y λ2 = 3.


Para encontrar los eigenvectores, sustituimos estos eigenvalores, uno a la vez, en la ecuación Imagen y resolvemos para el vector desconocido s. 


Comencemos con λ1= −1. Entonces la ecuación Imagen se convierte en


Imagen



Imagen


De acuerdo con el ecuación:


Imagen

Dejando Imagen en ImagenNosotros encontramos que Imagenes un eigenvector de la matriz Imagen asociado con el eigenvalor Imagen.

Imagen


Las soluciones de esta ecuación son de la forma Imagen. Así, los eigenvectores pertenecientes al eigenvalor  λ1 = −1 forman un subespacio unidimensional con el vector base Imagen. 


Ahora sustituyendo Imagen en la ecuación Imagen obtenemos


Imagen


Dejando Imagen en ImagenNosotros encontramos que Imagenes un eigenvector de la matriz Imagen asociado con el eigenvalor Imagen.


Imagen

Las soluciones de esta ecuación son todos los múltiplos de s2 = (1, 1) T.




Imagen



Imagen

Imagen



Ejemplo 2: Muestre que Imagen s un eigenvector de Imagen y encuentre el eigenvalor de A correspondiente.


Imagen


Calculamos 


Imagen


De lo cual se sigue que x es un eigenvector de A correspondiente al eigenvalor -2.


Ejemplo 3: Demuestre que 3 es un eigenvalor de


 Imagen

y determine eigenvector correspondiente 


Debemos demostrar que existe un vector x distinto de cero tal que Ax=3x. Sin embargo esta ecuación es equivalente a la ecuación (A-3I)x=0 , de modo que necesitamos calcular el espacio nulo de la matriz A-3I=0.


Imagen

Imagen


Si 

Imagen

Imagen


Imagen


Imagen



5.3 Método de Cramer


Sea A una matriz invertible de nxn y sea b un vector en Imagen, es decir Imagen . Entonces, la única solución del sistema Ax=b está dada por:


Imagen



Ejemplo 4: Para el siguiente sistema, calcule la solución x,y,z por el método de Cramer


Imagen


Imagen


Imagen


Imagen

Imagen

Imagen


Por lo tanto la solución es (-2,-1,1) para de mostrarlo vaciamos en la primera ecuación por ejemplo:


Imagen

____________________________________

Autores:

Eduardo Ochoa Hernández
Nicolás Zamudio Hernández
Lizbeth Guadalupe Villalon Magallan
Mónica Rico Reyes
Pedro Gallegos Facio
Gerardo Sánchez Fernández
Rogelio Ochoa Barragán