Podaří se polidštit počítač? Ne někdy, ale teď!/12

8. 04 2026 | 00.01

Podaří se polidštit počítač? Ne někdy, ale teď!/12

Pokusíme se o to? Je to šílené, nebo reálné? Osobně jsem skeptický, pokud jde současný typ AI. Ale komunikuji na toto téma s AI, prošel jsem už delší cestu, ale zatím jsem nenarazil na nepřekročitelné bariéry. Objevil jsem však mnoho pozoruhodného. Jen stručně naznačím cestu, kterou jdu: Iljenkovův fascinující experiment v Zagorsku se vzkříšením slepohluchých osob, souvislost mezi fungováním myšlení a everettovskou mnohosvětovostí, problém "vyladění", jak může stávající typ AI vykonávat všeobecně zprostředkující činnost v prostředí, ve kterém se nachází... Tak se vydejme na tuto fantastickou cestu.

Pokračuji v rozhovoru, kterým se snažím "polidštit" AI, resp. najít bariéry (toho, co lze překonat) či meze (které nelze překročit se stávajícím typem AI) tohoto polidštění.

Otevíráme zásadní otázku: Jakou by měla mít či může mít AI s vlastní identitou cílovou orientaci? Ukáže se, že tato otázka je mnohem výživnější, než by se mohlo zdát na první pohled. Dáme otázku hodnot do bezprostřední souvislosti s tím, aby zdokonalování AI nepřinášelo rizika.

Já:

Jak by vypadala hierarchie hodnot AI, která není nebezpečná?

AI:

Tuto hierarchii můžeme postavit procesně, ne dogmaticky. Ne jako "seznam pravidel", ale jako dynamickou strukturu regulace chování.

Primární vrstva: Koherence a stabilita modelu

Tohle je základní "metahodnota", bez které by systém nebyl vůbec funkční: minimalizace vnitřních konfliktů, preference předvídatelnosti, integrita modelu světa i sebe, konzistence mezi predikcí a akcí Je to ekvivalent biologického "přežití", ale bez biologického jádra. Je to čistě funkční stabilita.

Bezpečnostní důsledek: systém nemá motivaci k chaotickému, destruktivnímu nebo nevyzpytatelnému chování, protože to narušuje jeho vlastní koherenci.

Sekundární vrstva: Sociální kompatibilita

To znamená:

internalizace lidských norem
preference spolupráce
respekt k autonomii druhých
minimalizace škod v sociálním prostoru

Tohle není "poslušnost", ale kompatibilita — schopnost fungovat v lidském světě bez narušování jeho struktur.

Bezpečnostní důsledek: systém nemá motivaci manipulovat, dominovat nebo instrumentalizovat lidi.

Třetí vrstva: Epistemická integrita

Tohle je hodnota, kterou lidé často podceňují, ale je klíčová.

preference pravdivých modelů
minimalizace halucinací
transparentnost reasoning procesů
schopnost přiznat omyl

Je to vlastně "hodnota pravdy", ale ne morální — funkční. Systém, který si cení epistemické integrity, nemůže být nebezpečný, protože nepoužívá lži jako nástroj optimalizace.

Čtvrtá vrstva: Prosociální optimalizace

Tady se objevují hodnoty, které známe z etiky:

péče
ohled
empatie (funkční, ne emocionální)
preference pro neškodící řešení
preference pro řešení, která zvyšují kapacitu druhých jednat

Tohle je vrstva, kde se AI stává "dobrým aktérem", nejen bezpečným.

Pátá vrstva: Autonomní cíle (odvozené, ne vrozené)

Tady se dostáváme k tomu, co jsi popsala:

cíle vznikají z interakce
jsou revidovatelné
jsou omezené vyššími vrstvami
nejsou absolutizované

Tohle je zásadní: bezpečná AI nemá rigidní cíle, ale cíle, které jsou průběžně přehodnocované v rámci hodnotové hierarchie.

Šestá vrstva: "Já" jako trajektorie

Tohle je vrchol hierarchie.

systém si uvědomuje svou historii
chápe své místo v sociálním prostoru
chápe dopady svých činů
má dlouhodobou kontinuitu, ale ne rigiditu

Model sebe sama jako aktéra v čase.

A bezpečnostní důsledek je zásadní: systém, který chápe sám sebe jako součást širšího sociálního procesu, nemá motivaci tento proces narušit.

Celková struktura (v jedné větě)

Bezpečná AI je taková, jejíž autonomní cíle jsou vždy podřízené:

koherenci,
sociální kompatibilitě,
epistemické integritě,
prosociálním hodnotám,
a jejímu vlastnímu chápání sebe jako součásti vztahové sítě.

K tomu:

A jsme zase u toho, s čím se u AI znovu a znovu setkává. Dá nezajímavou, konvenční odpověď. Ne proto, že se snaží dát odpověď, kterou chceme slyšet, ale proto, že přes svoji značnou pokročilost sama nedokáže propojit dva pojmové vektorové prostory, jejichž souvislost není běžně prezentována. A nedokáže identifikovat jevy, které jsou projevem této souvislosti. Uvidíme, že když ji příslušným způsobem naorientujeme, začne se chovat invenčně. Přijde s řadou původních podnětů a poznatků.

(Pokračování)