QLog (Quantized Log)

Bit et Qubit

Classé dans : quantique — Sebastiao Correia 31 mai 2007 @ 20:15
Imprimer ce billet Imprimer ce billet

Voici un petit article sympa dans lequel les auteurs montrent qu’un qubit (un bit quantique) peut être vu comme la généralisation matricielle du bit classique. L’article fait 4 pages. La deuxième page est suffisante pour comprendre ce que présentent les auteurs. Le reste n’est que la généralisation à d dimensions.

Le point de départ est l’équation de Boole : x^2=x qui montre que les symboles logiques peuvent s’écrire sous la forme 0 ou 1. Les auteurs généralisent l’équation à une matrice P(x) :
P(x)^2=P(x) avec x in delim{lbrace}{0,1}{rbrace} un symbole logique. Cette équation est l’équation d’un projecteur (opérateur familier de la mécanique quantique).

La solution de cette équation est la matrice
P(x)=(matrix{2}{2}{1-x 0 0 x}).

Le lien avec la notation de Dirac est donné par
P(x)= | x >< x | avec |x > =(matrix{2}{1}{1-x  x}).

On retrouve les qubits de base |0> et |1> pour les valeurs 0 et 1 de x. Un qubit est donc un vecteur à 2 dimensions.

Une particule de spin 1 possède 3 états de spin et représente un qutrit (bit quantique à 3 niveaux). Cet état est représenté par un vecteur à 3 dimensions dépendant de la variable logique classique x in  delim{lbrace}{yes, no, unknown}{rbrace} – voir l’Equ. (7).

En dimension d, la variable logique x in delim{lbrace}{0,1,... , d-1}{rbrace} possède donc d modalités.

Je manque encore un peu de culture sur les différentes logiques, mais il me semble que cette approche est lié à la logique polyvalente. En parcourant un peu l’historique de cette logique, on voit qu’elle est apparue dans les années 20 et qu’elle a conduit aux ensembles flous (utilisés parfois pour représenter des structures quantiques) et à la logique floue.

Pour leurs généralisations, les auteurs utilisent toujours l’équation P(x)^2=P(x) et l’équation de normalisation Tr P(x) = 1, mais l’équation de Boole n’est pas conservée. Une question que l’on peut se poser est : pourquoi conserver l’équation de Boole matricielle en dimension supérieure à 2 et pas l’équation de Boole usuelle ?

La caverne noire des petits hommes verts de la planète rouge

Classé dans : Science — Sebastiao Correia 30 mai 2007 @ 23:13
Imprimer ce billet Imprimer ce billet

Grâce à la qualité croissante des photos de Mars, le visage martien n’est plus un mystère. Mais maintenant une autre photo va certainement faire parler beaucoup d’elle et éveiller un tas de fantasmes dans beaucoup d’esprits…

La photo en question (et d’autres d’une précision remarquable) peut être trouvée là : HiRISE | Candidate Cavern Entrance Northeast of Arsia Mons

Les spéculations sur l’explication de la photo de la NASA sont ouvertes sur le blog de Matthieu.

Historique des distributions linux

Classé dans : Informatique — Sebastiao Correia 29 mai 2007 @ 18:42
Imprimer ce billet Imprimer ce billet

Pour connaître l’origine de votre distribution préférée :

linuxdistrotimeline-75.png (PNG Image, 1860×1984 pixels) – Scaled (42%)

Modélisation dimensionnelle 11

Classé dans : Aide à la décision — Sebastiao Correia 26 mai 2007 @ 22:26
Imprimer ce billet Imprimer ce billet

En général, lorsqu’il y a une relation de plusieurs-à-plusieurs entre deux groupes d’attributs de dimension, il est souhaitable de séparer ces groupes dans deux dimensions distinctes. Cependant, lorsque le nombre de ligne est très petit, il est possible de laisser ces groupes d’attributs dans une superdimension. Une superdimension est un peu une dimension fourre-tout. Cela peut aussi s’avérer utiliser lorsque certains attributs renseignent sur la relation entre ces groupes d’attributs. C’est par exemple le cas pour une superdimension regroupant un lieu d’origine et un lieu de destination. Plutôt que
faire deux vues sur une table lieu, une superdimension combinant l’origine et la destination permet d’ajouter l’information sur la distance…

Concernant la gestion des calendriers par pays, une table Date déportée par pays est une façon de gérer les spécificités d’un pays. Cette table est liée à une dimension conforme Date et à une clé primaire sur le pays.

L’heure peut être traitée comme un simple fait s’il n’y a pas de besoin d’analyser par période plus fine que la journée.

La gestion des fuseaux horaires nécessite de décrire les dates et heures dans un fuseau horaire de référence et dans le fuseau horaire local.

Source : Ralph Kimball et Margy Ross, « Entrepôts de données, guide pratique de modélisation dimensionnelle« , 2ième édition.

Philosophie, mécanique quantique et taille des classes

Classé dans : quantique — Sebastiao Correia 24 mai 2007 @ 22:34
Imprimer ce billet Imprimer ce billet

Dans un article de Physics World, D. Kaiser explique que la taille des classes infuence la façon dont la mécanique quantique est abordée. Plus une classe est remplie, moins l’enseignant se penche sur les aspects philosophiques de la mécanique quantique.

Avant la deuxième guerre mondiale, l’enseignement de la physique quantique incitait à réfléchir sur les conséquences de la théorie sur la conception du monde.

Après la guerre, les classes (surtout aux Etats-Unis) se sont remplies. On formait beaucoup de physiciens pour le nucléaire. Le but alors n’était plus de comprendre, mais de calculer. Les questions d’ordre plus philosophiques étaient plutôt des distractions par rapport à la tâche principale qui était l’approfondissement des conséquences de la théorie quantique, par le calcul. L’enseignement portait donc sur le comment et non sur le pourquoi.

Passée cette période d’après-guerre, le nombre d’étudiants en physique a commencé a chuter énormément dans les années 70. Et les aspects philosophiques laissés de côté sont réapparus dans les cours et dans les livres.

Actuellement, il y a un grand retour sur les fondements de la physique quantique. Avec les nouvelles orientations vers des aspects liés à la théorie de l’information (ordinateurs quantiques, algorithmes quantiques…), beaucoup essaient de mieux appréhender la signification de la mécanique quantique, ou de l’appréhender différemment à partir des avancées faites en théorie des probabilités, théorie de l’information…

Ainsi, on peut se poser la question d’actualité suivante : La désaffection des étudiants pour les sciences dures pourrait-elle avoir un aspect positif ?

Modélisation dimensionnelle 10

Classé dans : Aide à la décision — Sebastiao Correia @ 20:47
Imprimer ce billet Imprimer ce billet

Le chapitre 10 propose de réviser un schéma existant. L’exercice est très instructif. Voici les points sur lesquels il faut être attentif :

  1. Trouver le niveau de granularité le plus bas, ce qui ne signifie pas la recherche des données les plus détaillées de l’entreprise.
  2. Vérifier que tous les faits additifs sont à la granularité définie pour la table de faits. Et éviter les cumuls car non additifs.
  3. Granularité des dimensions : chaque dimension associée à une table de faits doit prendre une seule valeur pour chaque ligne de la table de faits. Chaque attribut de la dimension doit prendre une seule valeur par ligne de dimension. Il faut dénormaliser les hiérarchies à l’intérieur de la dimension.
  4. Dimension Date. Toujours bien préciser son rôle lorsqu’une table date générique est utilisée.
  5. Éviter les colonnes représentant des périodes en dur dans la table de faits. Il vaut mieux avoir 12 lignes et une dimension Mois plutôt que 12 colonnes les représentant.
  6. Rechercher les dimensions qui devraient être dégénérées (cas d’une dimension ayant presque autant de ligne que la table de faits).
  7. Éviter les codes, utiliser des descriptions.
  8. Utiliser des clés artificielles plutôt que les identifiants opérationnels pour toutes les dimensions.
  9. Avoir un nombre de dimensions raisonnable, ni trop, ni trop peu.

La géographie peut être standardisée (adresse, point géographique x, y) et partagée en tant que dimension déportée. Il faut cependant vérifier que le partage de cette table ait un intérêt (en diminuant le nombre de lignes par exemple) et que l’utilisation des différentes vues sur cette dimension déportée restent performantes (cela dépendra du SGBD). Les outils de SIG (Système d’Information Géographique) permettent de tirer un meilleur parti de ces données, en particulier en vue d’une représentation sur une carte (des requêtes de type topologiques existent).

Source : Ralph Kimball et Margy Ross, « Entrepôts de données, guide pratique de modélisation dimensionnelle« , 2ième édition.

Modélisation dimensionnelle 9

Classé dans : Aide à la décision — Sebastiao Correia 21 mai 2007 @ 21:35
Imprimer ce billet Imprimer ce billet

Ce chapitre se penche sur les services financiers.

Lorsque l’on a peu de dimensions, il faut vérifier que les dimensions suivantes sont présentes.

  • L es dimensions causales telles que Promotion, Contrat, Affaires… qui renseignent sur la cause d’un événement.
  • Les dimensions de dates multiples ou d’horodatage.
  • Les dimensions dégénérées (DD) telles que N° de facture… qui identifient une ligne de la table de faits.
  • Les dimensions à jeu de rôles qui apparaissent lorsqu’une dimension est utilisée plusieurs fois.
  • Les dimensions d’état telles que l’état d’un compte, qui identifient l’état actuel d’une transaction ou d’un instantané mensuel.
  • Les dimensions audit pour suivre l’origine et la qualité des données
  • Les dimensions fourre-tout qui regroupent indicateurs et drapeaux corrélés.

Ces dimensions peuvent être ajoutées au modèle sans rien perturber. Elles ne modifient pas les clés des dimensions existantes ni les faits mesurés, ni le grain de la table de faits.

En fait, « tout attribut descriptif ayant une seule valeur pour différentes mesures de la table de faits est susceptible d’être ajouté à une dimension existante ou de devenir lui-même une dimension. »

Les banques étudient les relations entre les comptes et les foyers. Pour cela elles peuvent utiliser des algorithmes complexes de rapprochement. Pour autant, les comptes et les foyers sont séparés en deux dimensions distinctes (car ils sont variables mais leur variation n’est pas trop corrélée). La relation entre comptes et foyers passe donc par la table de faits, ce qui évite de gérer l’évolution de ces dimensions avec l’approche de type 2.

Pour traiter les dimensions à valeurs multiples, il faut utiliser une table passerelle pour relier les diverses valeurs d’attribut à la dimension. Par exemple, un compte bancaire peut avoir un ou plusieurs titulaires. La dimension client est liée à la dimension compte par l’intermédiaire d’une table passerelle. Le compte lui est lié à la table de faits. La dimension client évoluant rapidement, il est nécessaire de créer des mini-dimensions qui regroupent des attributs corrélés (notation mensuelle de crédit, données démographiques…). Pour éviter un trop grand nombre de lignes dans les mini-dimensions, il est conseillé d’utiliser des plages de valeurs d’attributs. Dans certains cas, on peut conserver la valeur exacte de l’attribut dans la table de faits.

Pour créer des plages de valeurs d’attributs, on peut employer une table définissant ces plages avec : une clé pour le groupe de plages, une clé pour l’ordre de tri du groupe, le nom du groupe, le nom de la plage de valeurs, la valeur inférieure et la valeur supérieure. La jointure avec la table de faits est double (ex. : FAITS.solde >= PLAGE.valeur_inférieure AND FAITS.solde < PLAGE.valeur_supérieure).

Lorsque l’on veut analyser des produits différents ; il est nécessaire d’avoir une table de faits centrale permettant l’analyse indépendamment des produits (à partir de leurs caractéristiques communes) et des tables de faits sur mesure pour analyser les faits selon les attributs spécifiques à des produits particuliers. On peut utiliser une table déportée de la dimension produit pour stocker les attributs spécifiques et laisser les attributs communs à tous les produits dans la dimension produit.

Source : Ralph Kimball et Margy Ross, « Entrepôts de données, guide pratique de modélisation dimensionnelle« , 2ième édition.

Orion, le premier ordinateur quantique

Classé dans : Informatique, quantique — Sebastiao Correia 11 mai 2007 @ 15:06
Imprimer ce billet Imprimer ce billet

La compagnie canadienne D-Wave a fait beaucoup de bruit en février dernier en présentant une démonstration de son ordinateur quantique appelé Orion. La présentation est disponible en pdf ici. Le processeur est composé de 16 qubits et la compagnie prévoit de passer à 1024 qubits fin 2008.

Geordie Rose, un des fondateurs de D-Wave, explique dans les colonnes de Physics World que Orion n’est pas en fait un ordinateur complètement quantique. Il est construit selon la théorie des ordinateurs quantiques adiabatiques (adiabatic quantum computers). Une des limitations de cette technologie est l’impossibilité de simuler des systèmes quantiques.

Il indique également qu’un ordinateur quantique ne saura probablement pas résoudre des problèmes NP-difficiles exponentiellement plus vite qu’un ordinateur classique.  Selon lui, le gain en vitesse pourra n’être que quadratique, ce qui serait déjà une grande avancée pour certains problèmes.

Contrairement à ce que prédisait une grande partie des chercheurs, il se pourrait bien qu’on n’attende pas 2050 pour assister à une petite révolution dans le monde des ordinateurs… D’autant plus que les algorithmes quantiques actuellement connus concernent des domaines très importants comme la cryptographie et la recherche d’information dans des bases de données.

Modélisation dimensionnelle 8

Classé dans : Aide à la décision — Sebastiao Correia @ 14:28
Imprimer ce billet Imprimer ce billet

Gestion de ressources humaines.

Les questions que l’on peut se poser concernant les employés d’une entreprise peuvent être très complexes. Pour pouvoir y répondre, il faut construire une table de faits au grain de la transaction employé. Cette table peut ne pas avoir de faits (i.e. pas de valeur numérique).
La dimension Date et Heure est supposée suffisamment fine pour qu’une ligne de transaction soit identifiée par ses dimensions (employé, type de transaction, date, heure).
Suite à une transaction employé, son profil change et le changement doit être répercuté dans la dimension Employé. Comme chaque ligne de transaction ajoutera une ligne dans la dimension, il est plus judicieux de mettre les transactions dans la dimension et d’oublier la table de faits.
Pour chaque ligne, il faut indiquer une date de fin de transaction qui permet de connaître facilement la période de validité d’un profil. Il faut éviter de mettre null, il vaut mieux mettre une date dans le futur pour la dernière transaction et une colonne supplémentaire avec un indicateur de validité actuelle permettant de trouver immédiatement le profil actuel.
Pour les dimensions à évolution lentes de type 2, il est conseillé d’horodater la prise d’effet et l’expiration et d’avoir un indicateur de « ligne courante ».
La table de faits sera un instantané périodique mensuel dans lequel on peut cumuler le nombre de jours de congés acquis, utilisés, le nombre de promotions…
A cette table de faits, on peut ajouter une dimension Audit qui nous dira pour chaque ligne la provenance des données, la confiance dans les données. Cette dimension contient en fait des méta-données.

Pour grouper les employés selon leur compétence, on peut utiliser une table de dimension déportée stockant des mots-clés représentant leur compétence.
Pour les employés à compétence multiple, le langage SQL ne permet pas simplement de gérer des contraintes sur plusieurs lignes. Il faut donc utiliser UNION et INTERSECTION. UNION permet d’avoir les employés ayant l’une OU l’autre des compétences. INTERSECTION donne ceux qui ont l’une ET l’autre des compétences.
Une autre façon d’obtenir ce résultat est de définir une seule ligne pour chaque groupe de compétences avec une colonne contenant une liste des mots-clés concaténés séparés par \. Le SQL serait alors simplement

SELECT … WHERE liste_aptitudes LIKE ‘%unix%’
| OR |
| AND | liste_aptitudes LIKE ‘%linux%’
La recherche avec % en début de chaîne étant coûteuse, il faut éviter cette méthode sur de trop grandes tables.

Un questionnaire d’enquête a une table de faits contenant les réponses pour chaque (dimension) « date d’envoi du questionnaire », « date de réception du questionnaire », employé évalué, employé répondant au questionnaire, type de réponse.

Source : Ralph Kimball et Margy Ross, « Entrepôts de données, guide pratique de modélisation dimensionnelle« , 2ième édition.

Analyse de citations

Classé dans : Science — Sebastiao Correia 8 mai 2007 @ 21:10
Imprimer ce billet Imprimer ce billet

Voici un outil gratuit pour mesurer l’impact des articles scientifiques. Il se base sur le moteur de recherche « Google Scholar« .
Harzing.com – Research in International and Cross-cultural Management

On trouvera également sur ce site la définition d’un ensemble d’index existants pour calculer l’impact : index h de Hirsch, index g de Egghes, index h généralisé, index AW (prenant en compte l’âge), index h individuel. L’outil peut donner tous ces index (calculés actuellement seulement à partir du moteur Google Scholar).

Sur un sujet voisin, voir aussi un précédent billet : Une mesure de la créativité.

Page Suivante >>>