Dicho certificado debe incluir los pagos extra y los descuentos que correspondan de acuerdo a la ley. Esto último se refiere, por ejemplo, a aquellas transferencias que van a un fondo (público o privado en algunos países) para la futura jubilación.
El modelo más generalizado de nómina está constituido por tres grandes bloques: encabezamiento, devengos y deducciones. Vamos a explicar cada uno de ellos.
Encabezamiento de una nómina
En el primer bloque -el encabezamiento- debe constar la información principal. En el caso de la empresa, es el nombre o razón social, el domicilio y el número de la Seguridad Social
Aplicaciones prácticas de la clasificación
Clasificación binaria
Este algoritmo clasifica los datos de entrada en uno de dos grupos posibles. A menudo, una de las clases indica un estado "normal/deseado" y la otra indica un estado "anormal/no deseado". Las aplicaciones prácticas de la clasificación binaria incluyen:
Detección de spam
El algoritmo recibe ejemplos de correos electrónicos que están etiquetados como "spam" o "no spam" durante la fase de aprendizaje supervisado. Posteriormente, cuando el algoritmo recibe una nueva entrada de correo electrónico, predice si el correo corresponde a un "spam" o "no spam".
Predicción de migración de clientes
El algoritmo utiliza un conjunto de datos de entrenamiento de clientes que previamente cancelaron la suscripción de un servicio. Según el entrenamiento, el algoritmo predice si un nuevo cliente finalizará la suscripción o no en función de los parámetros de entrada.
Predicción de conversión
El algoritmo se entrena con los datos del comprador y si compró el artículo o no. Luego, basándose en esta capacitación, el algoritmo predice si un nuevo cliente realizará una compra o no.
Los principales algoritmos utilizados para la clasificación binaria incluyen la regresión logística y las máquinas de vectores de soporte.
Clasificación multiclase
En la clasificación multiclase, el conjunto de datos de entrenamiento se etiqueta con una de las múltiples clases posibles. A diferencia de la clasificación binaria, un algoritmo multiclase se entrena con datos que se pueden clasificar en una de las muchas clases posibles. Las aplicaciones para la clasificación multiclase incluyen:
- Clasificación de rostros: según los datos de entrenamiento, un modelo categoriza una foto y la asigna a una persona específica. Un detalle a tener en cuenta aquí es que podría haber una gran cantidad de etiquetas de clase. En este caso, miles de personas.
- Clasificación de correo electrónico: la clasificación multiclase se utiliza para segregar los correos electrónicos en varias categorías: social, educación, trabajo y familia.
- Los principales algoritmos utilizados para la clasificación multiclase son Bosques Aleatorios, Naive Bayes, árbol de decisiones, K-vecinos más cercanos y Gradient Boosting.
Clasificación de etiquetas múltiples
A diferencia de la clasificación binaria y multiclase donde el resultado tiene solo una clase posible, la salida de etiquetas múltiples pertenece a una o más clases, lo cual significa que los mismos datos de entrada podrían clasificarse en diferentes compartimentos. Las aplicaciones de la clasificación de etiquetas múltiples incluyen:
- Detección de fotos: en los casos en que las fotos tienen varios objetos, como un vehículo, un animal y personas, la foto podría caer en varias etiquetas.
- Clasificación de audio/video: las canciones y los videos pueden encajar en varios géneros y estados de ánimo. Se puede utilizar la clasificación de etiquetas múltiples para asignar estas etiquetas múltiples.
- Clasificación de documentos: es posible clasificar artículos en función de su contenido.
Clasificación con datos desbalanceados
Este es un caso especial de clasificación binaria, donde existe un desbalance de clases en el conjunto de datos de entrenamiento. La mayoría de los ejemplos de los datos de entrenamiento pertenecen a un conjunto y una pequeña parte pertenece al segundo conjunto. Desafortunadamente, la mayoría de los algoritmos de Machine Learning funcionan mejor cuando existe una distribución equitativa entre las clases. Por ejemplo, en sus datos de entrenamiento, usted tiene 10.000 transacciones de clientes genuinos y solo 100 son fraudulentas. Para igualar la precisión, se necesitan técnicas especializadas debido al desbalance en los datos. Las aplicaciones de la clasificación con datos desbalanceados podrían ser:
- Detección de fraude: en el conjunto de datos etiquetados que se utilizan para el entrenamiento, solo una pequeña cantidad de entradas se etiquetan como fraude.
- Diagnósticos médicos: en una gran cantidad de muestras, las que tienen un caso positivo de una enfermedad podrían ser mucho menos.
Se utilizan técnicas especializadas como enfoques basados en costos y enfoques basados en muestreo para ayudar a lidiar con casos de clasificación con datos desbalanceados.
Aplicaciones prácticas de la regresión
Regresión lineal
La regresión lineal en el aprendizaje supervisado entrena a un algoritmo para encontrar una relación lineal entre los datos de entrada y salida. Es el modelo más simple utilizado donde las salidas representan una combinación linealmente ponderada de las salidas. La regresión lineal se puede utilizar para predecir valores dentro de un rango continuo (por ejemplo, ventas, pronóstico de precios) o clasificarlos en categorías (por ejemplo, gato, perro - regresión logística). En los datos de entrenamiento para la regresión lineal, se proporcionan una variable de entrada (independiente) y una respectiva variable de salida (la variable dependiente). A partir de los datos proporcionados de entrada que son etiquetados, el algoritmo de regresión calcula la intersección y el coeficiente x en la función lineal. Las aplicaciones de la regresión lineal pueden incluir:
Pronóstico: una de las aplicaciones más importantes de la regresión lineal es el pronóstico. El pronóstico puede ser de diferentes naturalezas. Las empresas utilizan la regresión lineal para pronosticar las ventas o los comportamientos de compra de sus clientes. También se utiliza para predecir el crecimiento económico, las ventas de bienes raíces y los precios de productos básicos como el petróleo. La regresión lineal también se utiliza para estimar el salario óptimo para un nuevo empleado, basándose en los datos históricos de los salarios.
Regresión logística
Se utiliza para determinar la probabilidad de que ocurra un evento. Los datos de entrenamiento tendrán una variable independiente, y el resultado deseado será un valor entre 0 y 1. Una vez que el algoritmo se entrena con la regresión logística, podrá predecir el valor de una variable dependiente (entre 0 y 1) en función del valor de la variable independiente (entrada). La regresión logística utiliza la función sigmoidea clásica en forma de S. En la regresión logística en el contexto de aprendizaje supervisado, un algoritmo calcula los valores del coeficiente beta b0 y b1 a partir de los datos de entrenamiento proporcionados.
probabilidad = e^(b0 + b1 * X)
Las aplicaciones de la regresión logística incluyen:
- Determinación de la probabilidad: Una de las principales aplicaciones de la regresión logística es determinar la probabilidad de un evento. La probabilidad de cualquier evento se encuentra entre 0 y 1, y ese es el resultado de una función logística. Los algoritmos de regresión logística en Machine Learning se pueden utilizar para predecir los resultados de las elecciones, las probabilidades de un desastre natural y otros eventos similares.
- Clasificación: aunque la regresión logística utiliza una función continua, algunas de sus aplicaciones están en la clasificación. Se puede utilizar para la segregación de imágenes y problemas de clasificación relacionados.
Regresión polinomial
La regresión polinomial se utiliza para un conjunto de datos más complejo que no encajaría perfectamente en una regresión lineal. Un algoritmo se entrena con un conjunto de datos complejos y etiquetados que podrían no encajar adecuadamente en una regresión en línea recta. Si dichos datos de entrenamiento se utilizan con regresión lineal, podría causar un ajuste insuficiente, donde el algoritmo no capturará las tendencias verdaderas de los datos. Las regresiones polinomiales permiten una mayor curvatura en la línea de regresión y, por lo tanto, una mejor aproximación de la relación entre la variable dependiente y la independiente.
El sesgo y la desviación son dos términos principales asociados con la regresión polinomial. El sesgo es el error en el modelado que se produce al simplificar la función de ajuste. La desviación también se refiere a un error causado por el uso de una función demasiado compleja para ajustar los datos.
- proporcionar nuevos conjuntos de datos al algoritmo para realizar nuevas predicciones.
.
Comentarios