Prueba estadística para las series de tiempo en las que se produce el resultado - pitón

votos
15

Estoy preguntando por asistencia en relación con la prueba de regresión. Tengo una serie temporal continua que fluctúa entre números enteros positivos y negativos. También tengo eventos que ocurren a lo largo de esta serie de tiempo en puntos de tiempo aparentemente aleatorios. Esencialmente, cuando ocurre un evento, tomo el número entero respectivo. Luego quiero probar si este entero influye en el evento en absoluto. Como en, ¿hay más números enteros positivos/negativos

Originalmente pensé en la regresión logística con el número positivo/negativo pero eso requeriría al menos dos grupos distintos. Mientras que yo sólo tengo información sobre los eventos que han ocurrido. No puedo incluir esa cantidad de eventos que no ocurren ya que es algo continuo y aleatorio. La cantidad de veces que un evento no ocurre es imposible de medir

Así que mi grupo distinto es todo cierto en cierto sentido, ya que no tengo ningún resultado de algo que no ocurrió. Lo que estoy tratando de clasificar es

Cuando se produce un resultado, ¿el número entero positivo o negativo influye en este resultado?

Publicado el 11/05/2020 a las 04:28
fuente por usuario
En otros idiomas...                            


3 respuestas

votos
0

Aunque la pregunta es bastante difícil de entender después del primer párrafo. Permítame ayudarlo con lo que pude entender de esta pregunta.

Asumiendo que quieres entender si hay relación entre los eventos que ocurren y los números enteros de los datos.

Primer acercamiento: Trazar los datos en una escala de 2d y comprobar visualmente si hay una relación entre los datos. 2ª aproximación: hacer que los datos de los eventos sean continuos y eliminar los eventos de otros datos y usando la ventana rodante suavizar los datos y luego comparar ambas tendencias.

El enfoque anterior sólo funciona bien si entiendo correctamente su problema También hay una cosa más conocida como sesgo de supervivencia. Puede que te falten datos, por favor, comprueba también esa parte.

Respondida el 18/05/2020 a las 13:52
fuente por usuario

votos
0

Suena como si estuvieras interesado en determinar las fuerzas subyacentes que están produciendo un determinado flujo de datos. Tales modelos matemáticos se llaman modelos de Markov. Un ejemplo clásico es el estudio del texto

Por ejemplo, si ejecuto un algoritmo del Modelo de Markov Oculto en un párrafo del texto inglés, entonces encontraré que hay dos categorías de conducción que están determinando las probabilidades de qué letras aparecen en el párrafo. Esas categorías pueden dividirse aproximadamente en dos grupos, "aeiouy" y "bcdfghjklmnpqrstvwxz". Ni las matemáticas ni el HMM "sabían" cómo llamar a esas categorías, pero son a lo que estadísticamente convergen al analizar un párrafo de texto. Podríamos llamar a esas categorías "vocales" y "consonantes". Así que, sí, las vocales y las consonantes no son sólo categorías de primer grado para aprender, sino que se derivan de cómo se escribe el texto estadísticamente. Curiosamente, un "espacio" se comporta más como una vocal que como una consonante. No di las probabilidades para el ejemplo anterior, pero es interesante notar que "y" termina con una probabilidad de aproximadamente 0,6 vocal y 0,4 consonante; lo que significa que "y" es la vocal de comportamiento más consonante estadísticamente

Un gran documento es https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf que repasa las ideas básicas de este tipo de análisis de series temporales e incluso proporciona algún código de sudo para referencia

No sé mucho sobre los datos con los que está tratando y no sé si los conceptos de "positivo" y "negativo" juegan un papel determinante en los datos que usted ve, pero si usted ejecuta un HMM en sus datos y encuentra que los dos grupos son la colección de números positivos y la colección de números negativos, entonces su respuesta sería confirmada, sí, las dos categorías más influyentes que están impulsando sus datos son los conceptos de positivo y negativo. Si no se dividen de manera uniforme, entonces tu respuesta es que esos conceptos no son un factor influyente en la conducción de los datos. Aún más, el algoritmo terminaría con varias matricias de probabilidad que le mostrarían cuánto cada entero de sus datos está siendo influenciado por cada categoría, por lo que tendría una visión mucho mayor del comportamiento de sus datos de series temporales

Respondida el 19/05/2020 a las 07:59
fuente por usuario

votos
0

Tal vez estoy malinterpretando su problema pero no creo que pueda realizar ningún tipo de regresión significativa sin más información.

La regresión suele utilizarse para encontrar una relación entre dos o más variables, sin embargo Parece que sólo se tiene una variable (si son positivas o negativas) y una constante (el resultado es siempre verdadero en los datos). Tal vez podría hacer algunas estadísticas sobre la distribución de los números (media, mediana, desviación estándar) pero no estoy seguro de cómo podría hacer la regresión. https://en.wikipedia.org/wiki/Regression_analysis

Puede que quieras considerar que puede haber un fuerte sesgo de supervivencia si te falta una gran parte de tus datos. https://en.wikipedia.org/wiki/Survivorship_bias

Espero que esto sea al menos un poco útil para que te dirijas en la dirección correcta

Respondida el 11/05/2020 a las 04:53
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more