La formula empirica
L'equazione dell'autorità di risoluzione
La disciplina non parte da una conclusione, ma da un'equazione che attende di essere verificata. Qui è scritta in linguaggio matematico, con le variabili misurabili e la soglia esatta che la falsificherebbe.
Il modello
Sia il grafo della conoscenza. Ogni entità è un nodo; ogni arco diretto porta un tipo semantico (autore, sameAs, membro, citazione…). L'autorità di risoluzione è definita dalla ricorsione:
- — autorità di risoluzione
- Quanto il sistema "risolve" l'entità i. Grandezza latente; il suo osservabile è definito sotto.
- — autorità intrinseca
- Segnale accumulato dal nodo per conto proprio: anzianità del dominio, storia, backlink. Per un dominio nuovo è ≈ 0.
- — peso del tipo di relazione
- Il cuore della generalizzazione: ogni tipo di arco pesa diversamente. PageRank è il caso in cui tutti i tipi pesano uguale.
- — normalizzazione uscente
- La somma dei pesi degli archi che escono da j: l'autorità che j distribuisce è ripartita fra i suoi vicini.
- — smorzamento
- Fattore che pesa quanto l'autorità viene dalla rete contro quanto dal nodo stesso.
Forma chiusa
Posta la matrice di transizione tipizzata , la (1) si risolve in forma chiusa:
L'autorità di ogni nodo è dunque una trasformazione lineare del vettore delle autorità intrinseche : ciò che hai di tuo, propagato lungo tutti i cammini del grafo, pesato per tipo di relazione.
Continuità: PageRank come caso degenere
Se esiste un solo tipo di arco e , allora e la (1) torna esattamente il PageRank classico. La lineage è coerente: la rete neurale apprende i pesi (estremo dei pesi non controllabili), PageRank è la struttura di propagazione (estremo dei pesi unitari), l'Ontopoietica sta in mezzo: propagazione su archi tipizzati.
Il pivot empirico: il dominio vergine
Qui la formula incontra l'esperimento. Per un dominio nuovo (questo dominio), l'autorità intrinseca è nulla:
Sostituendo nella (1), il primo termine si annulla e resta solo la propagazione:
L'autorità dell'entità vergine, all'inizio, non può venire da sé: viene per intero dal termine di propagazione — gli archi verso entità già risolte (l'autore Paolo Galbiati; il sameAs al termine già assestato su profpaul.icu). È la variabile isolata per costruzione: se diventa positiva con , è stata la propagazione, non l'anzianità.
L'osservabile
è latente: non si misura direttamente. Si misura tramite l'indicatore di risoluzione al tempo :
- 0 — non risolta (nessuna menzione)
- 1 — menzionata e disambiguata come entità
- 2 — citata come fonte su una query neutra
e dal tempo di prima risoluzione:
La soglia di falsificazione
La formula non è un'opinione: fa due previsioni controllabili, decise prima dei dati.
Ipotesi forte (esistenza). Con e gli archi in posto al tempo , l'entità si risolve entro l'orizzonte :
Ipotesi graduata (monotonia). Su più entità vergini con propagazione diversa, il tempo di risoluzione decresce al crescere di :
Non luogo a procedere
La formula è falsificata se, con archi in posto e crawlati e , risulta per ogni . In quel caso la propagazione da sola non basta, l'autorità intrinseca è necessaria, e l'anzianità non è scavalcabile dagli archi. Non è una sconfitta: è un verdetto, e dice esattamente quale termine della (1) andava rivisto.
Cosa la formula è, e cosa non è
La (1) è un modello consistente con il comportamento osservato dei sistemi di recupero a grafo — non la rivendicazione di essere l'equazione interna di un motore specifico, i cui pesi non sono accessibili. È falsificabile nelle sue previsioni, non come ricostruzione di un'implementazione proprietaria. Questa distinzione è parte del metodo: un modello che predice e si lascia smentire vale; uno che pretende di descrivere ciò che non può osservare, no.
Riferimenti
- L. Page, S. Brin, R. Motwani, T. Winograd — The PageRank Citation Ranking: Bringing Order to the Web (Stanford InfoLab, 1999).
- Google — Introducing the Knowledge Graph: things, not strings (2012).
- Schema.org — DefinedTerm: lo standard con cui sono strutturate le entità di questo sito.
Questa formalizzazione rende in notazione la catena argomentativa del saggio The Data-Identity Principle, perfezionata dai quattro principi della disciplina. La verifica numerica è nell'esperimento.