Statement 1| Linear regression estimator has the smallest variance among all unbiased estimators. Statement 2| The coefficients α assigned to the classifiers assembled by AdaBoost are always non-negative.,Vrai vrai,"Falsch, falsch",Vero falso,Falso verdadero,D
Dichiarazione 1 |Roberta pretrasse su un corpus approssimativo 10 volte più grande del corpus Bert pre -su.Dichiarazione 2 |Resnexts nel 2018 di solito utilizzava le funzioni di attivazione TANH.,"Wahr, wahr","Faux, faux",Verdadero Falso,"False, True",C
"Aussage 1 |Unterstützen Sie Vektormaschinen wie logistische Regressionsmodelle, geben eine Wahrscheinlichkeitsverteilung über die möglichen Beschriftungen bei, die ein Eingangsbeispiel haben.Aussage 2 |Wir würden erwarten, dass die Unterstützungsvektoren im Allgemeinen gleich bleiben, wenn wir von einem linearen Kernel zu Polynomkern mit höherer Ordnung wechseln.",Vero vero,"Faux, faux","True, False",Falso verdadero,B
"Ein Problem mit maschinellem Lernen umfasst vier Attribute sowie eine Klasse.Die Attribute haben jeweils 3, 2, 2 und 2 mögliche Werte.Die Klasse hat 3 mögliche Werte.Wie viele maximal mögliche Beispiele gibt es?",12,24,48,72,D
"A partire dal 2020, quale architettura è la migliore per classificare le immagini ad alta risoluzione?",Faltungsnetzwerke,graph networks,redes totalmente conectadas,Réseaux RBF,A
"Aussage 1 |Die logarithmische Likelihood der Daten wird durch aufeinanderfolgende Iterationen des Erwartungsmaximationsalgorithmus immer zunehmen.Aussage 2 |Ein Nachteil des Q-Learning besteht darin, dass es nur dann verwendet werden kann, wenn der Lernende Vorkenntnisse darüber hat, wie sich seine Handlungen auf seine Umgebung auswirken.",Vrai vrai,"Falso, falso","True, False",Falso verdadero,B
"Nehmen wir an, wir haben den Gradienten unserer Kostenfunktion berechnet und ihn in einem Vektor g gespeichert.Was kostet ein Update eines Gradientenabstiegs angesichts des Gradienten?",O (d),EN),O (nd),O(ND^2),A
"Declaración 1 |Para una variable aleatoria continua x y su función de distribución de probabilidad P (x), sostiene que 0 ≤ p (x) ≤ 1 para todo x.Declaración 2 |El árbol de decisión se aprende minimizando la ganancia de información.",Vrai vrai,"Falsch, falsch","True, False",Falsa verità,B
Betrachten Sie das unten angegebene Bayes'sche Netzwerk.Wie viele unabhängige Parameter werden für dieses Bayes'sche Netzwerk H-> u <- p <- W benötigt?,2,4,8,16,C
"Wenn die Anzahl der Schulungsbeispiele in Unendlichkeit geht, hat Ihr Modell, das auf diese Daten geschult wurde,:",Faible variation,Maggiore varianza,Misma varianza,None of the above,A
Dichiarazione 1 |L'insieme di tutti i rettangoli nel piano 2D (che include rettangoli non assaltati) può infrangere un set di 5 punti.Dichiarazione 2 |La dimensione VC del classificatore del vicino di K-Nearest quando k = 1 è infinita.,"True, True","Faux, faux",Verdadero Falso,Falsch Richtig,A
_ Se refiere a un modelo que no puede modelar los datos de capacitación ni generalizar a nuevos datos.,bon ajustement,übertreffen,Underfitting,all of the above,C
Aussage 1 |Die F1 -Punktzahl kann besonders für Datensätze mit einem hohen Ungleichgewicht von Klassen nützlich sein.Aussage 2 |Der Bereich unter der ROC -Kurve ist eines der Hauptmetriken zur Bewertung von Anomaliedetektoren.,Verdad verdad,"Falso, falso",Vrai faux,"False, True",A
"Aussage 1 |Der Back-Propagation-Algorithmus lernt ein global optimales neuronales Netzwerk mit versteckten Schichten.Aussage 2 |Die VC -Dimension einer Linie sollte höchstens 2 sein, da ich mindestens einen Fall von 3 Punkten finden kann, die von keiner Linie zerbrochen werden können.",Vrai vrai,"False, False",Vero falso,Falso verdadero,B
High entropy means that the partitions in classification are,pure,nicht rein,útil,inutile,B
"Statement 1| Layer Normalization is used in the original ResNet paper, not Batch Normalization. Statement 2| DCGANs use self-attention to stabilize training.",Vero vero,"Faux, faux",Verdadero Falso,Falsch Richtig,B
Beim Aufbau eines linearen Regressionsmodells für einen bestimmten Datensatz beobachten Sie den Koeffizienten eines der Merkmale mit einem relativ hohen negativen Wert.Das deutet darauf hin,Esta característica tiene un fuerte efecto en el modelo (debe conservarse),Cette fonctionnalité n'a pas d'effet fort sur le modèle (devrait être ignoré),Non è possibile commentare l'importanza di questa funzione senza ulteriori informazioni,Nothing can be determined.,C
"Pour un réseau neuronal, dont l'une de ces hypothèses structurelles est celle qui affecte le plus le compromis entre le sous-instruction (c'est-à-dire un modèle de biais élevé) et le sur-ajustement (c'est-à-dire un modèle de grande variance):",Il numero di nodi nascosti,La tasa de aprendizaje,Die anfängliche Wahl der Gewichte,The use of a constant-term unit input,A
"Für die Polynomregression, die eine dieser strukturellen Annahmen derjenige ist, der den Kompromiss zwischen Unteranpassung und Überanpassung am meisten beeinflusst:",Il grado polinomiale,Whether we learn the weights by matrix inversion or gradient descent,La variación supuesta del ruido gaussiano,L'utilisation d'une entrée unitaire à terme constant,A
"Déclaration 1 |En 2020, certains modèles atteignent une précision supérieure à 98% sur CIFAR-10.Déclaration 2 |Les ResNet d'origine n'ont pas été optimisés avec l'optimiseur ADAM.","True, True","Falso, falso",Verdadero Falso,Falsch Richtig,A
El algoritmo K-means:,Nécessite que la dimension de l'espace de fonctionnalité ne soit pas plus grande que le nombre d'échantillons,Ha il valore più piccolo della funzione obiettivo quando k = 1,Minimizes the within class variance for a given number of clusters,"Konvergiert auf das globale Optimum, wenn und nur dann, wenn die anfänglichen Mittel als einige der Proben selbst ausgewählt werden",C
Declaración 1 |VGGNets tienen núcleos convolucionales de ancho y altura más pequeños que los núcleos de primera capa de Alexnet.Declaración 2 |Los procedimientos de inicialización de peso dependientes de datos se introdujeron antes de la normalización por lotes.,"True, True","Falsch, falsch",Vero falso,Faux vrai,A
"What is the rank of the following matrix? A = [[1, 1, 1], [1, 1, 1], [1, 1, 1]]",0,1,2,3,B
"Aussage 1 |Die Dichteschätzung (unter Verwendung des Kerneldichteschätzers) kann zur Durchführung einer Klassifizierung verwendet werden.Aussage 2 |Die Korrespondenz zwischen logistischer Regression und Gaußschen naiven Bayes (mit Identitätsklassen-Kovarianzen) bedeutet, dass es eine Eins-zu-Eins-Korrespondenz zwischen den Parametern der beiden Klassifizierer gibt.",Verdad verdad,"False, False",Vero falso,Faux vrai,C
Supongamos que nos gustaría realizar la agrupación de datos espaciales como las ubicaciones geométricas de las casas.Deseamos producir grupos de muchos tamaños y formas diferentes.¿Cuál de los siguientes métodos es el más apropiado?,Arbres de décision,Clustering basato sulla densità,Modellbasiertes Clustering,K-means clustering,B
"Déclaration 1 |Dans Adaboost, les poids des exemples mal classés augmentent par le même facteur multiplicatif.Déclaration 2 |Dans Adaboost, l'erreur de formation pondérée E_T du TTH faible classificateur sur les données d'entraînement avec les poids D_T a tendance à augmenter en fonction de T.",Verdad verdad,"Falsch, falsch","True, False",Falsa verità,A
Les estimations du MLE sont souvent indésirables car,Son parciales,Sie haben eine hohe Varianz,they are not consistent estimators,Nessuna delle precedenti,B
"La complejidad computacional del descenso de gradiente es,",lineare in d,linéaire en n,polynomial in D,Abhängig von der Anzahl der Iterationen,C
Averaging the output of multiple decision trees helps _.,Erhöhen Sie die Verzerrung,Diminuer le biais,Aumenta la varianza,Disminución de la varianza,D
"Das Modell, das durch die Anwendung einer linearen Regression auf die identifizierte Untergruppe von Merkmalen erhalten wurde",Sélection de la meilleure sous-ensemble,Selezione graduale in avanti,Selección sabia del escenario hacia adelante,All of the above,C
Neural networks:,Optimiser une fonction objectif convexe,Solo se puede entrenar con descenso de gradiente estocástico,Kann eine Mischung aus verschiedenen Aktivierungsfunktionen verwenden,Nessuna delle precedenti,C
"Digamos que la incidencia de una enfermedad d es de aproximadamente 5 casos por cada 100 personas (es decir, p (d) = 0.05).Deje que la variable aleatoria booleana d significa que un paciente ""tiene enfermedad d"" y deje que la variable aleatoria booleana TP sea ""pruebas positivas"".Se sabe que las pruebas para la enfermedad D son muy precisas en el sentido de que la probabilidad de dar positivo cuando tiene la enfermedad es 0.99, y la probabilidad de probar negativamente cuando no tiene la enfermedad es 0.97.¿Qué es P (TP), la probabilidad previa de probar positivo?","0,0368","0,473","0,078",None of the above,C
Aussage 1 |Nachdem 1-nn unter Verwendung einer nicht gewichteten euklidischen Distanz in den Feature Space Q über eine radiale Basis-Kernelfunktion zugeordnet ist als im Originalraum (obwohl wir dies nicht garantieren können).Aussage 2 |Die VC -Dimension eines Perzeptrons ist kleiner als die VC -Dimension eines einfachen linearen SVM.,Vrai vrai,"Falso, falso",Verdadero Falso,"False, True",B
La desventaja de la búsqueda de la red es,Non può essere applicato a funzioni non differenziabili.,Es kann nicht auf nicht kontinuierliche Funktionen angewendet werden.,It is hard to implement.,Il fonctionne raisonnablement lent pour la régression linéaire multiple.,D
Prédire la quantité de précipitations dans une région basée sur divers indices est un problème ______.,Aprendizaje supervisado,Unbeaufsichtigtes Lernen,Clustering,Nessuna delle precedenti,A
Welcher der folgenden Satz ist in Bezug auf die Regression falsch?,It relates inputs to outputs.,Se usa para la predicción.,Può essere usato per l'interpretazione.,Il découvre les relations causales,D
¿Cuál de los siguientes es la razón principal para podar un árbol de decisión?,Per risparmiare tempo di calcolo durante i test,To save space for storing the Decision Tree,Pour rendre l'erreur d'ensemble de formation plus petite,Um das Trainingsset zu vermeiden,D
Statement 1| The kernel density estimator is equivalent to performing kernel regression with the value Yi = 1/n at each point Xi in the original data set. Statement 2| The depth of a learned decision tree can be larger than the number of training examples used to create the tree.,"Wahr, wahr","Faux, faux",Vero falso,Falso verdadero,B
Supposons que votre modèle soit sur ajustement.Lequel des éléments suivants n'est pas un moyen valable d'essayer de réduire le sur-ajustement?,Erhöhen Sie die Anzahl der Trainingsdaten.,Improve the optimisation algorithm being used for error minimisation.,Disminuir la complejidad del modelo.,Ridurre il rumore nei dati di allenamento.,B
Statement 1| The softmax function is commonly used in mutliclass logistic regression. Statement 2| The temperature of a nonuniform softmax distribution affects its entropy.,Vrai vrai,"Falsch, falsch",Verdadero Falso,Falsa verità,A
Quale delle seguenti è/sono vere per quanto riguarda un SVM?,"Pour les points de données bidimensionnels, l'hyperplan séparant appris par un SVM linéaire sera une ligne droite.","In theory, a Gaussian kernel SVM cannot model any complex separating hyperplane.",Für jede in einem SVM verwendete Kernelfunktion kann man eine gleichwertige Expansion mit geschlossener Form erhalten.,El sobreajuste en un SVM no es una función del número de vectores de soporte.,A
"¿Cuál de las siguientes es la probabilidad conjunta de H, U, P y W descrita por la red bayesiana dada H-> U <- P <- W?[Nota: Como producto de las probabilidades condicionales]","P (h, u, p, w) = p (h) * p (w) * p (p) * p (u)","P(H, U, P, W) = P(H) * P(W) * P(P | W) * P(W | H, P)","P (h, u, p, w) = p (h) * p (w) * p (p | w) * p (u | h, p)",Nichts des oben Genannten,C
"Statement 1| Since the VC dimension for an SVM with a Radial Base Kernel is infinite, such an SVM must be worse than an SVM with polynomial kernel which has a finite VC dimension. Statement 2| A two layer neural network with linear activation functions is essentially a weighted combination of linear separators, trained on a given dataset; the boosting algorithm built on linear separators also finds a combination of linear separators, therefore these two algorithms will give the same result.",Vrai vrai,"Falsch, falsch",Vero falso,"False, True",B
"Aussage 1 |Der ID3 -Algorithmus findet garantiert den optimalen Entscheidungsbaum.Aussage 2 |Betrachten Sie eine kontinuierliche Wahrscheinlichkeitsverteilung mit Dichte f (), die überall ungleich Null ist.Die Wahrscheinlichkeit eines Wertes x ist gleich F (x).",Verdad verdad,"Faux, faux","True, False",Falsa verità,B
"Compte tenu d'un net neural avec n nœuds d'entrée, pas de couches cachées, un nœud de sortie, avec une perte d'entropie et des fonctions d'activation sigmoïde, laquelle des algorithmes suivants (avec les hyper-paramètres et l'initialisation appropriés) peuvent être utilisés pour trouver l'optimum global?",Descenso de gradiente estocástico,Mini-Batch-Gradientenabstieg,Discesa gradiente batch,All of the above,D
"Aggiungendo più funzioni di base in un modello lineare, scegli l'opzione più probabilmente:",Diminue le biais du modèle,Disminuye el sesgo de estimación,Decreases variance,Beeinträchtigt keine Voreingenommenheit und Varianz,A
Considérez le réseau bayésien ci-dessous.De combien de paramètres indépendants aurions-nous besoin si nous n'avions aucune hypothèse sur l'indépendance ou l'indépendance conditionnelle h -> u <- p <- w?,3,4,7,15,D
Un autre terme pour la détection hors distribution est?,rilevamento di anomalie,detección de una sola clase,Zugprüfungsfehlanpassung Robustheit,background detection,A
"Declaración 1 |Aprendemos un clasificador F aumentando a los alumnos débiles h.La forma funcional del límite de decisión de F es la misma que H, pero con diferentes parámetros.(por ejemplo, si H era un clasificador lineal, entonces F también es un clasificador lineal).Declaración 2 |La validación cruzada se puede usar para seleccionar el número de iteraciones en el impulso;Este procedimiento puede ayudar a reducir el sobreajuste.",Vrai vrai,"Falso, falso",Wahr falsch,"False, True",D
Statement 1| Highway networks were introduced after ResNets and eschew max pooling in favor of convolutions. Statement 2| DenseNets usually cost more memory than ResNets.,Verdad verdad,"Falsch, falsch",Vrai faux,Falsa verità,D
"Si n es el número de instancias en el conjunto de datos de capacitación, los vecinos más cercanos tienen un tiempo de ejecución de clasificación de",O(1),SU ),O (log n),O (n^2),B
"Dichiarazione 1 |I resnet e i trasformatori originali sono reti neurali feedforward.Dichiarazione 2 |I trasformatori originali usano l'autoatterre, ma il resnet originale no.","True, True","Falso, falso",Wahr falsch,Faux vrai,A
"Dichiarazione 1 |Relus non è monotonico, ma i sigmoidi sono monotonici.Dichiarazione 2 |Reti neurali addestrate con discesa gradiente con alta probabilità converge al globale ottimale.","True, True","Faux, faux",Verdadero Falso,Falsch Richtig,D
La sortie numérique d'un nœud sigmoïde dans un réseau neuronal:,"Está ilimitado, abarcando todos los números reales.","È illimitato, che comprende tutti i numeri interi.",Ist zwischen 0 und 1 begrenzt.,Is bounded between -1 and 1.,C
Lequel des éléments suivants ne peut être utilisé que lorsque les données de formation sont séparables linéairement?,SVM lineal de margen duro.,Linear Logistic Regression.,Margine morbido lineare SVM.,Die Centroid -Methode.,A
¿Cuáles de los siguientes son los algoritmos de agrupación espacial?,Clustering basato su partizionamento,K-Means Clustering,Grid based clustering,Tout ce qui précède,D
"Declaración 1 |Los límites de decisión de margen máximo que respaldan la construcción de máquinas vectoriales tienen el error de generalización más bajo entre todos los clasificadores lineales.Declaración 2 |Cualquier límite de decisión que obtengamos de un modelo generativo con distribuciones gaussianas de clasescondicionales, en principio, podría reproducirse con una SVM y un núcleo polinomial de grado menor o igual a tres.",Vrai vrai,"Falsch, falsch",Vero falso,"False, True",D
Declaración 1 |La regularización de L2 de modelos lineales tiende a hacer que los modelos sean más escasos que la regularización de L1.Declaración 2 |Las conexiones residuales se pueden encontrar en resnets y transformadores.,Vero vero,"False, False",Vrai faux,Falsch Richtig,D
"Supponiamo che ci piace calcolare P (H | E, F) e non abbiamo informazioni sull'indipendenza condizionale.Quali dei seguenti set di numeri sono sufficienti per il calcolo?","P (E, F), P (H), P (E | H), P (F | H)","P (E, F), P (H), P (E, F | H)","P(H), P(E|H), P(F|H)","P (e, f), p (e | h), p (f | h)",B
Which among the following prevents overfitting when we perform bagging?,El uso de muestreo con reemplazo como técnica de muestreo,Die Verwendung schwacher Klassifizierer,L'uso di algoritmi di classificazione che non sono soggetti a eccesso,La pratique de la validation effectuée sur chaque classificateur formé,B
"Déclaration 1 |L'ACP et le clustering spectral (tels que Andrew Ng) effectuent une composition eigengen sur deux matrices différentes.Cependant, la taille de ces deux matrices est la même.Déclaration 2 |Étant donné que la classification est un cas particulier de régression, la régression logistique est un cas particulier de régression linéaire.",Vero vero,"Falso, falso","True, False",Falsch Richtig,B
"Déclaration 1 |Le Stanford Sentiment Treebank contenait des critiques de films, pas des critiques de livres.Déclaration 2 |Le Penn Treebank a été utilisé pour la modélisation du langage.","True, True","Falso, falso",Vero falso,Falsch Richtig,A
"What is the dimensionality of the null space of the following matrix? A = [[3, 2, −9], [−6, −4, 18], [12, 8, −36]]",0,1,2,3,C
Que sont les vecteurs de support?,Los ejemplos más alejados del límite de decisión.,Gli unici esempi necessari per calcolare F (x) in un SVM.,Das Data Centroid.,All the examples that have a non-zero weight αk in a SVM.,B
Aussage 1 |Word2VEC -Parameter wurden nicht mit einer eingeschränkten Boltzman -Maschine initialisiert.Aussage 2 |Die TANH -Funktion ist eine nichtlineare Aktivierungsfunktion.,Vrai vrai,"Falso, falso","True, False",Falso verdadero,A
"Se la perdita di allenamento aumenta con il numero di epoche, quale delle seguenti potrebbe essere un possibile problema con il processo di apprendimento?",La régularisation est trop faible et le modèle est sur ajustement,Die Regularisierung ist zu hoch und das Modell ist unterbezogen,El tamaño del paso es demasiado grande,Step size is too small,C
"Supponiamo che l'incidenza di una malattia D è di circa 5 casi per 100 persone (cioè p (d) = 0,05).Lascia che la variabile casuale booleana d significhi che un paziente ""ha malattia d"" e lascia che la variabile casuale booleana sia per ""test positivi"".I test per la malattia D sono noti per essere molto accurati nel senso che la probabilità di testare positiva quando si ha la malattia è 0,99 e la probabilità di testare negativo quando non si ha la malattia è 0,97.Che cos'è P (d | tp), la probabilità posteriore di avere malattia D quando il test è positivo?",0.0495,0.078,"0,635","0,97",C
"Aussage 1 |Traditionelle Ergebnisse für maschinelles Lernen gehen davon aus, dass die Zug- und Testsätze unabhängig und identisch verteilt sind.Aussage 2 |Im Jahr 2017 wurden Coco -Modelle normalerweise auf ImageNet vorgebracht.",Vrai vrai,"False, False",Verdadero Falso,Falsa verità,A
"Statement 1| The values of the margins obtained by two different kernels K1(x, x0) and K2(x, x0) on the same training set do not tell us which classifier will perform better on the test set. Statement 2| The activation function of BERT is the GELU.",Vrai vrai,"Falso, falso",Verdadero Falso,Falsch Richtig,A
¿Cuál de los siguientes es un algoritmo de agrupación en el aprendizaje automático?,Maximisation des attentes,CART,Bayes ingenuo gaussiano,Apriori,A
"Hai appena finito di allenare un albero decisionale per la classificazione dello spam e sta ottenendo prestazioni anormalmente cattive sia sul tuo allenamento che su set di test.Sai che la tua implementazione non ha bug, quindi cosa potrebbe causare il problema?",Ihre Entscheidungsbäume sind zu flach.,You need to increase the learning rate.,Vous sur-ajustement.,Ninguna de las anteriores.,A
K-fach Kreuzvalidierung ist,linéaire en k,quadratico in k,cubic in K,exponential in K,A
"Dichiarazione 1 |Le reti neurali su scala industriale sono normalmente addestrate su CPU, non sulle GPU.Dichiarazione 2 |Il modello Resnet-50 ha oltre 1 miliardo di parametri.",Verdad verdad,"Faux, faux",Wahr falsch,"False, True",B
"Bei zwei Booleschen Zufallsvariablen, A und B, wobei p (a) = 1/2, p (b) = 1/3 und p (a | ¬b) = 1/4, was ist p (a | b)?",1/6,1/4,3/4,1,D
Existential risks posed by AI are most commonly associated with which of the following professors?,Nando de Freitas,Yann LeCun,Stuart Russell,Jitendra Malik,C
Statement 1| Maximizing the likelihood of logistic regression model yields multiple local optimums. Statement 2| No classifier can do better than a naive Bayes classifier if the distribution of the data is known.,"True, True","Faux, faux",Vero falso,Falsch Richtig,B
"Für die Kernel-Regression, die eine dieser strukturellen Annahmen derjenige ist, der den Kompromiss zwischen Unteranpassung und Überanpassung am meisten beeinflusst:",Se la funzione del kernel è gaussiana contro triangolare contro a forma di scatola,Si nous utilisons les mesures euclidiennes contre L1 vs L∞,The kernel width,La altura máxima de la función del núcleo,C
"Déclaration 1 |L'algorithme d'apprentissage SVM est garanti pour trouver l'hypothèse globalement optimale par rapport à sa fonction d'objet.Déclaration 2 |Après avoir été cartographié dans l'espace des fonctionnalités Q grâce à une fonction de noyau radiale, un perceptron peut être en mesure d'obtenir de meilleures performances de classification que dans son espace d'origine (bien que nous ne puissions le garantir).","True, True","Falso, falso",Vero falso,Falsch Richtig,A
"Para un clasificador Gaussian Bayes, que uno de estos supuestos estructurales es el que más afecta la compensación entre el poco acorralado y el sobreajuste:",Sia che apprendiamo i centri di classe per massima probabilità o discesa per gradiente,Whether we assume full class covariance matrices or diagonal class covariance matrices,Que nous ayons estimé les données de classe égale à partir des données.,"Ob wir Klassen zulassen, dass sie unterschiedliche mittlere Vektoren haben, oder sie zwingen sie, denselben mittleren Vektor zu teilen",B
"Aussage 1 |Überanpassung ist wahrscheinlicher, wenn die Anzahl der Trainingsdaten gering ist.Aussage 2 |Überanpassung ist wahrscheinlicher, wenn der Hypothesenraum klein ist.",Vero vero,"Falso, falso","True, False",Faux vrai,D
"Aussage 1 |Neben EM kann der Gradientenabstieg verwendet werden, um Inferenz oder Lernen auf dem Gaußschen Mischungsmodell durchzuführen.Aussage 2 |Unter der Annahme einer festen Anzahl von Attributen kann in der Anzahl der Datensätze im Datensatz rechtzeitig ein Gauß-basierter Bayes-Optimal-Klassifizierer gelernt werden.","True, True","Faux, faux",Vero falso,Falso verdadero,A
"Aussage 1 |In einem Bayes'schen Netzwerk entsprechen die Inferenzergebnisse des Junction Tree -Algorithmus die gleichen wie die Inferenzergebnisse der variablen Eliminierung.Aussage 2 |Wenn zwei zufällige Variable x und y angesichts einer anderen zufälligen Variablen Z bedingt unabhängig sind, sind im entsprechenden Bayes'schen Netzwerk die Knoten für x und y gegeben mit d-getrennten Z.",Verdad verdad,"Faux, faux","True, False",Falsa verità,C
"Given a large dataset of medical records from patients suffering from heart disease, try to learn whether there might be different clusters of such patients for which we might tailor separate treatments. What kind of learning problem is this?",Aprendizaje supervisado,Apprentissage non surveillé,Sia a che B),Weder A noch B),B
"Was würden Sie in PCA tun, um die gleiche Projektion wie SVD zu erhalten?",Transform data to zero mean,Transformez les données en zéro médiane,Imposible,Nessuna di queste,A
"Aussage 1 |Der Trainingsfehler des 1-nearsten Nachbar-Klassifizierers ist 0. Anweisung 2 |Wenn die Anzahl der Datenpunkte unendlich wächst, nähert sich die MAP -Schätzung der MLE -Schätzung für alle möglichen Priors.Mit anderen Worten, angesichts genügend Daten ist die Auswahl der vorherigen Voraussetzung irrelevant.",Verdad verdad,"False, False",Vrai faux,Falsa verità,C
"Lors de la régression des moindres carrés avec régularisation (en supposant que l'optimisation peut être effectuée exactement), augmentant la valeur du paramètre de régularisation λ l'erreur de test.",Non diminuirà mai l'errore di allenamento.,Nunca aumentará el error de entrenamiento.,wird den Testfehler niemals verringern.,will never increase,A
Quale dei seguenti descrive meglio quali approcci discriminatori cercano di modellare?(W sono i parametri nel modello),"p (y | x, w)","P (Y, X)","p(w|x, w)",Aucune des réponses ci-dessus,A
Déclaration 1 |Les performances de classification CIFAR-10 pour les réseaux de neurones de convolution peuvent dépasser 95%.Déclaration 2 |Les ensembles de réseaux de neurones n'améliorent pas la précision de la classification car les représentations qu'ils apprennent sont fortement corrélées.,"Wahr, wahr","False, False",Vero falso,Falso verdadero,C
Lequel des points suivants bayésiens et fréquentistes serait-il en désaccord?,L'uso di un modello di rumore non gaussiano nella regressione probabilistica.,Die Verwendung der probabilistischen Modellierung zur Regression.,El uso de distribuciones previas en los parámetros en un modelo probabilístico.,The use of class priors in Gaussian Discriminant Analysis.,C
"Statement 1| The BLEU metric uses precision, while the ROGUE metric uses recall. Statement 2| Hidden markov models were frequently used to model English sentences.",Vrai vrai,"Falsch, falsch",Verdadero Falso,Falsa verità,A
Aussage 1 |ImageNet hat Bilder von verschiedenen Auflösungen.Aussage 2 |Caltech-101 hat mehr Bilder als ImageNet.,"True, True","Falso, falso",Vrai faux,Falso verdadero,C
Lequel des éléments suivants est le plus approprié de faire la sélection des fonctionnalités?,Cresta,Lasso,sowohl A als auch B),ni a ni B),B
Supposons que vous ayez un algorithme EM qui trouve des estimations de vraisemblance maximale pour un modèle avec des variables latentes.Il vous est demandé de modifier l'algorithme afin qu'il trouve à la place des estimations de MAP.Quelle étape ou étape devez-vous modifier?,Expectation,Maximierung,No es necesario modificar,Entrambi,B
"For a Gaussian Bayes classifier, which one of these structural assumptions is the one that most affects the trade-off between underfitting and overfitting:",Ob wir die Klassenzentren durch maximale Wahrscheinlichkeit oder Gradientenabstieg lernen,Se assumiamo matrici di covarianza di classe completa o matrici di covarianza di classe diagonale,Que nous ayons des priors ou des priors de classe égaux estimés à partir des données,Si permitimos que las clases tengan diferentes vectores medios o los obligamos a compartir el mismo vector medio,B
"Statement 1| For any two variables x and y having joint distribution p(x, y), we always have H[x, y] ≥ H[x] + H[y] where H is entropy function. Statement 2| For some directed graphs, moralization decreases the number of edges present in the graph.",Verdad verdad,"Falsch, falsch",Vrai faux,Falsa verità,B
Welche der folgenden Lernen ist nicht beaufsichtigt?,PCA,Albero decisionale,Régression linéaire,Bayesiano ingenuo,A
Dichiarazione 1 |La convergenza di una rete neurale dipende dal tasso di apprendimento.Dichiarazione 2 |Dropout moltiplica i valori di attivazione scelti casualmente per zero.,Verdad verdad,"Falsch, falsch",Vrai faux,"False, True",A
"Lequel des éléments suivants est égal à P (a, b, c) donné des variables aléatoires booléennes a, b et c, et aucune hypothèse d'indépendance ou d'indépendance conditionnelle entre l'une d'entre elles?",P (A | B) * P (B | C) * P (C | A),"P (c | a, b) * p (a) * p (b)","P (A, B | C) * P (C)","P(A | B, C) * P(B | A, C) * P(C | A, B)",C
Which of the following tasks can be best solved using Clustering.,Vorhersage der Menge an Niederschlägen auf der Grundlage verschiedener Hinweise,Détecter les transactions de carte de crédit frauduleuses,Entrenar a un robot para resolver un laberinto,Tutti i precedenti,B
"Après avoir appliqué une pénalité de régularisation dans la régression linéaire, vous constatez que certains des coefficients de W sont à zéro.Laquelle des sanctions suivantes aurait pu être utilisée?",L0 Norm,L1 norm,L2 Norm,cualquiera a o B),D
"A and B are two events. If P(A, B) decreases while P(A) increases, which of the following is true?",P (a | b) disminuye,P (b | a) nimmt ab,P (b) diminue,Tutto sopra,B
"Dichiarazione 1 |Quando si impara un HMM per una serie fissa di osservazioni, supponiamo che non conosciamo il vero numero di stati nascosti (che spesso è il caso), possiamo sempre aumentare la probabilità di formazione dei dati consentendo stati più nascosti.Dichiarazione 2 |Il filtraggio collaborativo è spesso un modello utile per modellare la preferenza cinematografica degli utenti.",Verdad verdad,"Falsch, falsch",Vrai faux,"False, True",A
"Vous formez un modèle de régression linéaire pour une tâche d'estimation simple et remarquez que le modèle est sur ajustement des données.Vous décidez d'ajouter une régularisation $ \ ell_2 $ pour pénaliser les poids.Lorsque vous augmentez le coefficient de régularisation $ \ ell_2 $, qu'arrivera-t-il au biais et à la variance du modèle?",Bias increase ; Variance increase,Aumento de sesgo;Variación disminuye,Verzerrung verringert sich;Varianz zunehmen,Bias diminuisce;Diminuzione della varianza,B
"Quale comando Pytorch 1.8 produce $ 10 \ volte 5 $ Gaussiano Matrix con ogni voce I.I.D.campionato da $ \ mathcal {n} (\ mu = 5, \ sigma^2 = 16) $ e una matrice uniforme $ 10 \ tempi 10 $ con ogni voce i.i.d.campionato da $ u [-1,1) $?","\ texttt {5 + fackel.randn (10,5) * 16};\ texttt {tolch.rand (10,10, low = -1, hoch = 1)}","\ texttt {5 + torch.randn (10,5) * 16};\ texttt {(torch.rand (10,10) - 0,5) / 0,5}","\texttt{5 + torch.randn(10,5) * 4} ; \texttt{2 * torch.rand(10,10) - 1}","\ texttt {torc.normal (torc.ones (10,5)*5, torc.ones (5,5)*16)};\ Texttt {2 * torc.rand (10,10) - 1}",C
"Declaración 1 |El gradiente de Relu es cero por $ x <0 $, y el gradiente sigmoidal $ \ sigma (x) (1- \ sigma (x)) \ le \ frac {1} {4} $ por todos $ x $.Declaración 2 |El sigmoide tiene un gradiente continuo y el Relu tiene un gradiente discontinuo.",Vero vero,"Faux, faux",Wahr falsch,"False, True",A
Qu'est-ce qui est vrai sur la normalisation par lots?,"Después de aplicar la normalización por lotes, las activaciones de la capa seguirán una distribución gaussiana estándar.","Der Vorspannungsparameter affine Schichten wird überflüssig, wenn eine Stapel -Normalisierungsschicht unmittelbar danach folgt.",The standard weight initialization must be changed when using Batch Normalization.,La normalizzazione batch è equivalente alla normalizzazione dello strato per le reti neurali convoluzionali.,B
Suppose we have the following objective function: $\argmin_{w} \frac{1}{2} \norm{Xw-y}^2_2 + \frac{1}{2}\gamma \norm{w}^2_2$ What is the gradient of $\frac{1}{2} \norm{Xw-y}^2_2 + \frac{1}{2}\lambda \norm{w}^2_2$ with respect to $w$?,$ \ nabla_w f (w) = (x^\ top x + \ lambda i) w - x^\ top y + \ lambda w $,$ \ nabla_w f (w) = x^\ top x w - x^\ top y + \ lambda $,$ \ nabla_w f (w) = x ^ \ top x w - x ^ \ top y + \ lambda w $,$ \ nabla_w f (w) = x^\ top x w - x^\ top y + (\ lambda + 1) w $,C
Welche der folgenden Aussagen trifft auf einen Faltungskern zu?,Conquistare un'immagine con $ \ inizio {bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \ end {bmatrix} $ non cambierebbe l'immagine,Convolution d'une image avec $ \ begin {bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \ end {bmatrix} $ ne changerait pas l'image,Convolucionar una imagen con $ \ begin {bmatrix} 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \ end {bmatrix} $ no cambiaría la imagen,Convolving an image with $\begin{bmatrix}0 & 0 & 0\\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix}$ would not change the image,B
Lequel des éléments suivants est faux?,"Semantic segmentation models predict the class of each pixel, while multiclass image classifiers predict the class of entire image.",Un cuadro delimitador con un IOU (intersección sobre sindicato) igual a $ 96 \%$ probablemente se consideraría en verdadero positivo.,"Quando una casella di delimitazione prevista non corrisponde a nessun oggetto nella scena, è considerata un falso positivo.",Ein Begrenzungsbox mit einer IOU (Kreuzung über Union) würde wahrscheinlich bei einem falsch negativen Negativ betrachtet.,D
Welche der folgenden Aussagen ist falsch?,"Le réseau entièrement connecté suivant sans fonctions d'activation est linéaire: $ g_3 (g_2 (g_1 (x))) $, où $ g_i (x) = w_i x $ et $ w_i $ sont des matrices.","Leaky ReLU $\max\{0.01x,x\}$ is convex.",Una combinación de relus como $ relu (x) - relu (x -1) $ es convexa.,La perdita $ \ log \ sigma (x) = -\ log (1+e^{ -x}) $ è concavo,C
"Estamos entrenando la red totalmente conectada con dos capas ocultas para predecir los precios de la vivienda.Las entradas son $ 100 $ -Dimensionales y tienen varias características, como el número de pies cuadrados, el ingreso familiar mediano, etc. La primera capa oculta tiene activaciones de $ 1000 $.La segunda capa oculta tiene activaciones de $ 10 $.La salida es un escalar que representa el precio de la vivienda.Suponiendo una red de vainilla con transformaciones afines y sin normalización por lotes y sin parámetros aprendizables en la función de activación, ¿cuántos parámetros tiene esta red?",111021,110010,111110,110011,A
Statement 1| The derivative of the sigmoid $\sigma(x)=(1+e^{-x})^{-1}$ with respect to $x$ is equal to $\text{Var}(B)$ where $B\sim \text{Bern}(\sigma(x))$ is a Bernoulli random variable. Statement 2| Setting the bias parameters in each layer of neural network to 0 changes the bias-variance trade-off such that the model's variance increases and the model's bias decreases,Vrai vrai,"Falso, falso",Wahr falsch,Falso verdadero,C
