[KI Diskussion] Chatbots

**Jesus_666** · 13.01.2006 16:30

@.Mi:
Das Problem beim Verständnis ist, daß man um ein relaiv komplettes Vokabular nicht herumkommt. Um das Konzept von "Baum" zu verstehen muß das Programm beipielsweise wissen, was eine Pflanze ist und was das Konzpt "groß" bedeutet, außerdem muß es "Substantiv" kennen, weil "Baum" nun mal eins ist. Für diese Abhängigkeiten brauchen wir dann die Konzepte "Lebewesen", "unbeweglich", "Photosynthese" und "Erde" (die mit Humus drin, nicht der Planet) für die Pflanze, sowie "Größe" und "Verhältnis" für "groß" und "Satzbaustein" und "Wort" für Substantiv. Und so weiter... Und bei diesem Abhängigkeitenbaum habe ich schon vieles weggelassen (zu den Abhängigkeiten von "Baum" müßte beispielsweise eigentlich auch "Diagramm" gehören).

Effektiv müßte man sämtliche Begriffe so lange durchdefinieren, bis man bei extrem einfachen Grundkomponenten ankommt, die der Computer kennt - also Zahlen und Wahr/Falsch. Dazu kommt noch, daß man Konnotationen eintragen müßte. Ich schätze mal, was man für eine halbwegs intelligente Konversation (was ja das Ziel dieser Überlegungen ist) für Datenmengen braucht:

Laut Wikipedia ist der durchschnittliche Wortschatz zwischen 8.000 und 10.000 Wörtern; für die Alltagssprache werden zwischen 400 und 800 Wörter benötigt. Die Zahl der in der Datenbank vorhandenen Wörter sei für einen Bot mit einfacher Kommunikationsfähigkeit also 400. (GRUNDWÖRTER = 400)
Gehen wir davon aus, daß jedes Wort nur so weit durchdefiniert ist, daß man frühestmöglich auf eine Zahl, Wahr oder Falsch abbilden kann. Dazu nehme ich an, daß jedes Wort mit nur fünf Schritten auf einen dieser Werte zurückgeführt werden kann (SCHRITTE = 5) und daß jedes Wort nur zwei Abhängigkeiten hat, die alle einen Schritt näher an einem Grundwert dran sind als das Wort, das von ihnen abhängig ist (ABHÄNGIGKEITEN = 2). Außerdem gehe ich davon aus, daß kein Wort eine Abhängigkeit mit einem anderen Wort teilt (die geteilten Abhängigkeiten werden durch die Zahl von nur zwei durchschnittlichen Abhängigkeiten berücksichtigt).

Die Anzahl der Wörter auf der untersten Ebene (fünfte Abhängigkeit) ist demnach:
WÖRTER_A5 = GRUNDWÖRTER * (ABHÄNGIGKEITEN ^ (SCHRITTE - 1)) (SCHRITTE - 1 deshalb, weil der letzte Schritt ja auf einen Grundwert verweist)
Die der nächsthöheren Ebene ist:
WÖRTER_A4 = GRUNDWÖRTER * (ABHÄNGIGKEITEN ^ (SCHRITTE - 2))
Die Anzahl der für den Abhängigkeitenbaum benötigten Wörter ist also:
WÖRTER = WÖRTER_A5 + WÖRTER_A4 + WÖRTER_A3 + WÖRTER_A2 + GRUNDWÖRTER
WÖRTER = 400*2^4 + 400*2^3 + 400*2^2 + 400*2^1 + 400
WÖRTER = 6400 + 3200 + 1600 + 800 + 400
WÖRTER = 12400
In Wirklichkeit dürfte die Zahl der benötigten Wörter größer sein, aber ich arbeite mal mit diesem Schätzwert weiter.

Für die Zahl der benötigten Verbindungen zwischen diesen Wörtern gehe ich davon aus, daß jedes Wort mit seinen Abhängigkeiten sowie mit zwei anderen Wörtern (Konnotationen) verbunden ist. Außerdem gehe ich davon aus, daß alle Konnotationen sich in unserem Wortschatz befinden. Die Verbindungen der elementar definierbarenen Wörter zu ihren Grundwerten ignoriere ich mal.
VERBINDUNGEN = WÖRTER * 4
VERBINDUNGEN = 49600

Mit jedem neuen Wort wächst die Anzahl der Gesamtwörter um [b]2^4 + 2^3 + 2^2 + 2^1 + 1 = 31[b] Wörter und es gibt 124 neue Verbindungen innerhalb des Graphen (denn genau das ist unser Wortschatz jetzt).

Es ist sicherlich machbar und irgendwann nimmt die Komplexität für das Eintragen eines neuen Wortes ab, aber für wirkliches Verständnis müßte man einen Riesenhaufen von Daten einpflegen. Ein menschenartiger Denkprozeß wäre zwar vorstellbar, wurde bisher aber noch nicht erfolgreich umgesetzt.

Thema: [KI Diskussion] Chatbots

Themen-Optionen

Anzeige

Baum-Darstellung

Berechtigungen