La formula empirica

L'equazione dell'autorità di risoluzione

La disciplina non parte da una conclusione, ma da un'equazione che attende di essere verificata. Qui è scritta in linguaggio matematico, con le variabili misurabili e la soglia esatta che la falsificherebbe.

Il modello

Sia G=(V,E) il grafo della conoscenza. Ogni entità è un nodo; ogni arco diretto ji porta un tipo semantico τji (autore, sameAs, membro, citazione…). L'autorità di risoluzione A(i) è definita dalla ricorsione:

A(i)= (1d)b(i) + d jIn(i) w(τji) W(j) A(j) (1)
A(i) — autorità di risoluzione
Quanto il sistema "risolve" l'entità i. Grandezza latente; il suo osservabile è definito sotto.
b(i) — autorità intrinseca
Segnale accumulato dal nodo per conto proprio: anzianità del dominio, storia, backlink. Per un dominio nuovo è ≈ 0.
w(τ) — peso del tipo di relazione
Il cuore della generalizzazione: ogni tipo di arco pesa diversamente. PageRank è il caso in cui tutti i tipi pesano uguale.
W(j)=kOut(j)w(τjk) — normalizzazione uscente
La somma dei pesi degli archi che escono da j: l'autorità che j distribuisce è ripartita fra i suoi vicini.
d — smorzamento
Fattore d(0,1) che pesa quanto l'autorità viene dalla rete contro quanto dal nodo stesso.

Forma chiusa

Posta la matrice di transizione tipizzata Mij=w(τji)/W(j), la (1) si risolve in forma chiusa:

A= (1d) (IdM) 1 b (2)

L'autorità di ogni nodo è dunque una trasformazione lineare del vettore delle autorità intrinseche b: ciò che hai di tuo, propagato lungo tutti i cammini del grafo, pesato per tipo di relazione.

Continuità: PageRank come caso degenere

Se esiste un solo tipo di arco e w1, allora w(τji)/W(j)=1/|Out(j)| e la (1) torna esattamente il PageRank classico. La lineage è coerente: la rete neurale apprende i pesi w(τ) (estremo dei pesi non controllabili), PageRank è la struttura di propagazione (estremo dei pesi unitari), l'Ontopoietica sta in mezzo: propagazione su archi tipizzati.

Il pivot empirico: il dominio vergine

Qui la formula incontra l'esperimento. Per un dominio nuovo v (questo dominio), l'autorità intrinseca è nulla:

b(v)0 (3)

Sostituendo nella (1), il primo termine si annulla e resta solo la propagazione:

A(v) dP(v) , P(v)= jIn(v) w(τjv) W(j) A(j) (4)

L'autorità dell'entità vergine, all'inizio, non può venire da sé: viene per intero dal termine di propagazione P(v) — gli archi verso entità già risolte (l'autore Paolo Galbiati; il sameAs al termine già assestato su profpaul.icu). È la variabile isolata per costruzione: se A(v) diventa positiva con b(v)0, è stata la propagazione, non l'anzianità.

L'osservabile

A(v) è latente: non si misura direttamente. Si misura tramite l'indicatore di risoluzione al tempo t:

R(v,t) {0,1,2} (5)
  • 0 — non risolta (nessuna menzione)
  • 1 — menzionata e disambiguata come entità
  • 2 — citata come fonte su una query neutra

e dal tempo di prima risoluzione:

τres= inf{t: R(v,t)1} (6)

La soglia di falsificazione

La formula non è un'opinione: fa due previsioni controllabili, decise prima dei dati.

Ipotesi forte (esistenza). Con b(v)0 e gli archi in posto al tempo t0, l'entità si risolve entro l'orizzonte T:

tt0+T : R(v,t)1 (7)

Ipotesi graduata (monotonia). Su più entità vergini con propagazione P(v) diversa, il tempo di risoluzione decresce al crescere di P(v):

τres P(v) <0 (8)

Non luogo a procedere

La formula è falsificata se, con archi in posto e crawlati e b(v)0, risulta R(v,t)=0 per ogni tt0+T. In quel caso la propagazione da sola non basta, l'autorità intrinseca b è necessaria, e l'anzianità non è scavalcabile dagli archi. Non è una sconfitta: è un verdetto, e dice esattamente quale termine della (1) andava rivisto.

Cosa la formula è, e cosa non è

La (1) è un modello consistente con il comportamento osservato dei sistemi di recupero a grafo — non la rivendicazione di essere l'equazione interna di un motore specifico, i cui pesi w(τ) non sono accessibili. È falsificabile nelle sue previsioni, non come ricostruzione di un'implementazione proprietaria. Questa distinzione è parte del metodo: un modello che predice e si lascia smentire vale; uno che pretende di descrivere ciò che non può osservare, no.

Riferimenti


Questa formalizzazione rende in notazione la catena argomentativa del saggio , perfezionata dai quattro principi della disciplina. La verifica numerica è nell'esperimento.