Kategorie: "SQL Server"

Verschiedenes

Posted on Sep 7, 2005 von in SQL Server

Wenn man Tabellen erstellt, Variablen deklariert oder andere Sachen macht, bei denen man mit Datentypen in Berührung kommt, sollte man stets präzise den Untertypen angegeben, den man verwenden möchte. Hier bringt es nichts ein Lazycoder zu sein, der ein paar Tastaturanschläge sparen will.

Beispiel 1: Wenn man eine VARCHAR Variable der Länge 10 deklarieren möchte, gibt man an

DECLARE @MyVar VARCHAR(10)

und nicht

DECLARE @MyVar VARCHAR

SQL Server nimmt standardmässig eine Länge von 1 für Zeichenfolgen, sofern man nicht explizit die Länge vorgibt. SQL Server schneidet ferner die Daten ab, ohne eine Warnung auszugeben:

DECLARE @MyVar VARCHAR
SET @MyVar = 'AB' 
SELECT @MyVar AS Only_one_character

Only_one_character 
------------------ 
A

(1 row(s) affected)

Beispiel 2: Man möchte eine Variable vom Typ DECIMAL mit einer Precision von 8 und Scale von 2 deklarieren.

DECLARE MyVar DECIMAL(8,2)

Schreibt man hingegen

DECLARE @MyVar DECIMAL

unterstellt SQL Server hier den Datentyp DECIMAL(18,0).

DECLARE @MyVar DECIMAL
SET @MyVar = 123456789012345678
SELECT @MyVar
                     
-------------------- 
123456789012345678

(1 row(s) affected)

Im Unterschied jedoch zu Zeichenfolgen, generiert SQL Server eine Warnung, falls der Wert zu groß ist, um in einen DECIMAL(18,0) zu passen

DECLARE @MyVar DECIMAL
SET @MyVar = 1234567890123456789
SELECT @MyVar

Server: Msg 8115, Level 16, State 8, Line 2
Arithmetic overflow error converting numeric to data type numeric.
                     
-------------------- 
NULL

(1 row(s) affected)

*****

Clustered Indexes

Posted on Sep 1, 2005 von in SQL Server

Wenn man einen Clustered Index erstellt, sollte dieser nach Möglichkeit als UNIQUE erstellt werden. Man muß UNIQUE explizit vorgeben, da SQL Server dies nicht standardmäßig annimmt. Der Grund dafür liegt in den Interna des Servers. Unter der Haube ist jeder Clustered Index UNIQUE. Wurde der Index nicht so erstellt, greift SQL Server automatisch ein, wenn - und auch nur dann - Duplikate in den oder die Index Schlüssel eingefügt werden sollen und fügt einen Integer Wert hinzu, der die Einmaligkeit der Schlüssel garantiert. Dieser 4 Byte Integer Wert wird auch "Uniquifier" genannt. Er verbreitert den Index entsprechend und führt dazu, daß mehr IO Operationen notwendig sind, um die relevanten Daten abzurufen. Die Performance ist negativ betroffen.

Es existiert allerdings noch ein weiterer guter Grund, warum idealerweise der Clustered Index UNIQUE sein sollte. Dazu muß man sich vor Augen führen, daß die Schlüssel des Clustered Index in der Blattebene der Nonclustered Indexes gespeichert werden. Erstellt man nun den Clustered Index neu (oder reorganisiert ihn), müssen ALLE Nonclustered Indexes der Tabelle ebenfalls neu erstellt werden, wenn der Clustered Index nicht UNIQUE erstellt wurde. Während diese Vorgehensweise die übliche war vor SQL Server 2000 Service Pack 2, hat sich das Verfahren mit der Einführung von SP 2 geändert. Jetzt werden die Nonclustered Indexes nur unter der Voraussetzung neu erstellt, daß der Clustered Index nicht als UNIQUE kreiiert wurde. Der Grund dafür liegt darin, daß während der Neuerstellung oder Reorganisation des Clustered Index dieser "Uniquifier" neu generiert wird. Bei einem nicht UNIQUE Clustered Index muß sich zwangsläufig diese Veränderung auch in den Nonclustered Indexes widerspiegeln, d.h. sie müssen ebenfalls neu erstellt werden. Wurde hingegen der Index als UNIQUE erstellt, gibt es keinen Uniquifier und in der Blattebene der Nonclustered Indexes finden sich nur die Schlüssel des Clustered Index. Da diese sich bei Neuerstellung nicht ändern, braucht auch nicht an den Nonclustered Indexes geändert zu werden.

*****

Nach Möglichkeit sollte es vermieden werden, einen Clustered Index auf einer GUID Spalte (Uniqueidentifier Datentyp) zu erstellen. Hier sind einige Gründe:

  1. GUID belegen 16 Bytes Speicherplatz. Dies ist, zum Vergleich, 4x so viel wie eine INTEGER Spalte. GUIDs machen den Index deutlich breiter, was dazu führt, daß weniger Daten auf einer Datenseite gespeichert werden können. SQL Server muß deshalb mehr IO Operationen ausführen, um die relevanten Daten abzurufen. Dies dürfte sich negativ auf die Performance auswirken.
  2. Die Schlüssel eines Clustered Index werden zusätzlich zu den eigentlichen Index Schlüsseln in der Blattebene jedes Nonclustered Index einer Tabelle gespeichert. Dies führt ebenfalls zu einer Verbreiterung der Nonclustered Indexes, die Einfluß auf die Performance hat.
  3. GUIDs sind von Natur aus "zufällig". Das heißt, man kann nicht voraussagen, ob der "nächste" Wert vor oder hinter dem letzten eingefügt werden muß. So muß man entweder entsprechend viel Platz auf einer Datenseite lassen (und damit Speicherplatz wenig effektiv nutzen) oder sich ggfs. mit Page Splittings auseinandersetzen beim einem ausgelasteten System.
  4. GUIDs sind wenig intuitiv. Aus diesen Grund darf bezweifelt werden, daß die wichtigsten und kritischsten Abfragen an ein System sich an einer GUID Spalte ausrichten oder daß man häufig GUIDs sortiert oder gruppiert. Da ein geschickt ausgewählter Clustered Index eine deutlich verbesserte Performance bewirken kann, sollte man ihn sich für eine besser geeignete Kombination von Spalte(n) aufheben.
  5. Ist man durch externe Einflüße gezwungen, GUIDs zu verwenden (z. B. in Replikationen Szenarien), und man entscheidet sich, die GUID Spalte auch zum PRIMARY KEY der Tabelle zu machen, sollte man darauf achten, daß SQL Server diesen PRIMARY KEY nicht auch automatisch zum Clustered Index macht (sofern bisher noch kein Clustered Index vorhanden ist auf dieser Tabelle). Dies kann dadurch erreicht werden, indem man entweder
    1. Explizit das NONCLUSTERED Schlüsselwort bei der Erstellung des Index via Skript angibt.
    2. Den Haken aus der entsprechende Option entfernt, falls man den Index über das graphische Management Interface erstellt.
  6. Zu guter Letzt, und vielleicht auch weniger wichtig. GUID sind nicht ANSI komform und daher nicht unbedingt portabel.

*****

 Als Faustregel gilt: Jede Tabelle sollte einen Clustered Index besitzen. Im allgemeinen, jedoch nicht immer stur anwendend, sollte der Clustered Index auf einer Spalte mit stetig steigenden eindeutigen Werten liegen. In vielen Fällen ist der Primärschlüssel einer Tabelle auch ein guter Kandidat für den Clustered Index.

Falls man Erfahrung mit Performance Tuning im SQL Server 6.5 hat, hat man vielleicht gehört, daß es keine gute Idee ist, den Clustered Index auf eine Spalte zu legen, deren Werte stetig steigen, da dies "Hotspots" auf der Festplatte verursachen kann, die zu Performance Problemen führen können. Dies gilt für SQL Server 6.5.

In SQL Server 7.0 und 2000 sind "Hotspots" generell kein Problem. Man müßte über 1.000 Transaktionen pro Sekunde haben, bevor so ein "Hotspot" negativ die Performance beeinflussen könnte. Tatsächlich kann so ein "Hotspot" vorteilhaft unter diesen Umständen sein, da er Page Splits eliminieren kann.

Warum? Angenommen man fügt neue Zeilen zu einer Tabelle hinzu, deren Primärschlüssel auch der Clustered Index ist. Die Werte in dieser Spalte steigen monoton steigend an. Dies bedeutet, daß jedes INSERT physikalisch hinter dem vorherigen auf der Festplatte eingefügt wird. Dadurch können keine Page Split während der INSERTs vorkommen, was für sich genommen den Overhead hilft zu verringern. Grund dafür ist SQL Servers Fähigkeit festzustellen, ob die hinzuzufügenden Daten bei einer monoton steigenden Folge auf eine Seite passen oder nicht. Pasen sie nicht mehr auf die Seite, wird eine neue allokiert und Page Splits kommen erst gar nicht vor.

Fügt man eine Menge Daten in eine Heap Tabelle (also eine Tabelle ohne Clustered Index) ein, werden die Daten in keiner speziellen Reihenfolge eingefügt. Egal, ob sie monoton steigend sind oder nicht, die Daten werden dort eingefügt, wo SQL Server feststellt, daß genügend Platz vorhanden ist. Üblicherweise führt dies dazu, daß SQL Server aber auc mehr Arbeit verrichten muß, wenn die Daten von der Festplatte angefordert werden. Fügt man nun einen Clustered Index zu so einer Tabelle hinzu, werden die Daten sequentiell in die Datenseiten geschrieben und im allgemeinen benötigt man weniger I/O Disk Operationen, um die Daten von der Festplatte abzurufen.

Falls Daten in einem eher zufälligen Muster in einen Clustered Index eingefügt werden, werden die Daten oftmals eher zufällig physikalisch in die Datenseiten eingefügt, was vergleichbar ist mit dem Problem des Einfügens in eine Heap Tabelle.

Nochmals, die beste allgemeingültige Empfehlung besteht darin, den Clustered Index auf eine Spalte zu legen, deren Werte monoton steigend sind (falls es eine solche Spalte in der Tabelle gibt). Besonders gilt dies für eine Tabelle, in die häufig INSERTs, UPDATEs und DELETEs stattfinden. Sind hingegen die Daten in der Tabelle eher statisch und verändern sich kaum, werden aber häufig über SELECT Statements abgefragt, ist dieser Rat weniger hilfreich, und andere Optionen für den Clustered Index sollten in Betracht gezogen werden. Im weiteren Verlauf finden sich weitere Tips für solche Situationen, in denen man den Clustered Index auf andere Spalten legen sollte.

*****

Hier sind einige gute Gründe, warum jede Tabelle einen Clustered Index besitzen sollte.

Man sollte bedenken, daß ein Clustered Index die physikalische Sortierung der Daten einer Tabelle gemäß den Schlüsselwerten bestimmt. Eine Heap Tabelle unterliegt nicht solchen Mechanismen. Ihre Daten werden in keiner bestimmten physikalischen Sortierung gespeichert.

Immer wenn man die Spalte(n) abfragt, die für den Clustered Index verwendet werden, hat SQL Server die Möglichkeit, die Daten sequentiell aus dem Clustered Index in Extent Blöcken (= 8 Datenseiten oder 64 kb) auf einmal zu lesen. Dies macht es dem Disk Subsystem sehr einfach, die Daten sehr schnell zu lesen, besonders wenn viele Daten abgerufen werden.

Liegt aber hingegen eine Heap Tabelle vor, muß SQL Server die Daten eher zufällig von Platte lesen (auch wenn ein angemessener Nonclustered (noncovering) Index vorhanden ist). Dies bedeutet eine Menge Extraarbeit, die das Disksubsystem verrichten muß, um die gleichen Daten zurückzugeben. Dies geht zu Lasten der Performance.

Ein weiterer Nachteil einer Heap Tabelle zeigt sich, wenn man Indexes neu erstellt, um Fragmentierung zu reduzieren. Heaps können nicht defragmentiert werden, da sie keine Indizes sind. Dies bedeutet, daß über die Zeit, die Daten tendenziell eher mehr und mehr fragmentiert werden, was weiter die Performance verschlechtert. Durch das Hinzufügen eines Clustered Index kann man sicherstellen, daß eine Tabelle defragmentiert wird, wenn die Indizes neu erstellt werden.

*****

Da es nur einen Clustered Index pro Tabelle geben kann, sollte man sich besonders viel Zeit nehmen, um herauszufinden, wie dieser aussehen sollte. Dabei sollte man die Abfragen an diese Tabelle in Betracht ziehen und eine fundierte Meinung dazu haben, welche dieser Abfragen, die kritischste (und unter Umständen am häufigsten ausgeführte) ist und ob gerade diese Abfrage von dem gewählten Clustered Index profitieren würde.

*****

Clustered Indexes sind nützlich für Abfragen, die folgenden Kriterien erfüllen:

* Für Abfragen, die einen breiten Bereich abfragen oder wenn man ein sortiertes Ergebnis benötigt. Die Daten sind bereits durch den Index vorsortiert. Beispiele hierfür sind zum Beispiel BETWEEN, <, >, GROUP BY, ORDER BY und Aggregate wie MAX, MIN, and COUNT in Abfragen.

* Für Abfrage, in denen man nach einem einmaligen Wert (wie zum Beispiel eine Mitarbeiter-Nummer) sucht und alle oder fast alle Daten dieser zeile benötigt. Grund hierfür ist, daß die Abfrage durch den Index gecovered ist. Mit anderen Worten, sind die Daten, die man benötigt, der Index selber und SQL Server muß keine weiteren Daten lesen.

* Für Abfragen, die auf Spalten zugreifen, die über eine limitiert Anzahl unterschiedlicher Werte verfügen. so wie zum Beispiel Länder Daten. Hat aber die Spalte kaum unterschiedliche Daten, so wie Spalte mit "Ja" und "Nein" oder "Männlich" und "Weiblich", bedeutet es eine Verschwendung, dies Spalten für den Clustered Index zu verwenden.

* Für Abfragen, die in JOIN oder GROUP BY Klauseln verwendet werden.

* Für Abfragem, die eine Menge Daten zurückgeben sollen, nicht nur einige wenige. Dies liegt wieder daran, daß die Daten der Index selber sind und SQL Server nicht noch irgendwo anders nachschauen muß.

*****

Falls man vor einer Situation steht, in der man einen einzelnen, breiten Index (ein zusammengesetzter Index von 3 oder mehr Spalten) in einer Tabelle zu haben, während die restlichen Indizes dieser Tabelle (sofern vorhanden) nur über eine Spalte gehen, sollte man darüber nachdenken, den breiten Index zum Clustered Index zu machen, während die anderen Nonclustered erstellt werden sollten.

Warum? Ist der breite Index der Clustered Index bedeutet dies, daß die gesamte Tabelle der Index ist und kein großer zusätzlicher Plattenspeicher benötigt wird, um den Index zu erstellen. Ist hingegen der breite Index ein Nonclustered Index, muß SQL Server hierfür einen "relativ großen" neuen Index erstellen, der Speicherplatz in Anspruch nimmt.

*****

Man sollte vermeiden, den Clustered Index auf Spalten zu legen, die bereits durch Nonclustered Indizes abgedeckt werden. Dies führt zu redundanten Indizes. Man sollte geeignetere Spalten für den Clustered Index verwenden.

*****

Bei der Auswahl von potentiellen Spalten für den Clustered Index sollte man Spalten vermeiden, deren Daten häufig verändert werden. Jedes Mal wenn sich ein Wert eines Clustered Index verändert, müssen sämtliche anderen Nonclustered Indizes ebenfalls verändert werden, um diese Modifikation zu reflektieren, was einen nicht zu unterschätzenden Overhead darstellt.

*****

Bei der Auswahl der Spalte oder der Spalten für den Clustered Index, sollte man die Spalte verwenden, nach der am häufigsten gesucht wird. Bei einem Zusammengesetzten Clustered Index sollte diese Spalte am erster Stelle stehen.

*****

Falls eine Tabelle sowohl einen Clustered Index als auch Nonclustered Indizes enthält, wird die Performance optimiert, wenn der Clustered Index auf einer einzelnen Spalte liegt, die so kompakt als möglich ist. Grund dafür ist, daß sämtliche Nonclustered Indizes die Schlüssel des Clustered Index verwendet, um die Daten zu lokalisieren. Sowohl der Clustered Index als auch die anderen Indizes profitieren davon.

*****

Der Primärschlüssel einer Tabelle muß nicht zwingend auch deren Clustered Index sein. Dies ist zwar SQL Servers Standard, sofern man es nicht anders angibt, ist aber nicht immer die beste Wahl. Man sollte nur dann den Primärschlüssel auch zum Clustered Index machen, wenn man regelmäßig Range Abfragen über den Primärschlüssel ausführt oder wenn das Ergebnis anhand des Primärschlüssels sortiert sein soll.

*****

Löscht man einen Clustered Index, sollte man bedenken, daß man freien Speicherplatz braucht, der ca. 1.2 x so groß ist wie die Tabelle selbst.
Dies gilt auch, wenn ein Clustered Index neu erstellt werden soll.

*****

Datentypen

Posted on Aug 22, 2005 von in SQL Server

Man sollte stets den kleinsten Datentypen auswählen, der ausreicht, um die Daten zu speichern. Die Gründe dafür sind einfach und einleuchtend:

  • Je kompakter die Daten sind, desto mehr Daten passen auf eine Datenseite. Also ist SQL Server in der Lage mit jeder einzelnen IO Operation mehr Daten aufzunehmen, was wiederum dazu führt, daß auch weniger IO Operationen benötigt werden, um eine Aufgabe auszuführen.
  • Je kompakter die Daten sind, umso weniger Daten müssen vom Server auf den Client geschafft werden. Dadurch wird der Netzwerkverkehr und Latenzen verringert.
  • Eine Spalte wird schneller sortiert, je schmaller sie ist. Dies gilt besonders für die Zeichenfolgen Datentypen.
  • Die belegte Speichermenge im Buffer Cache wird verringert. Dadurch können mehr Daten gecached werden.

*****

Auch wenn es vielleicht selbstverständlich ist, sollte man für Spalten mit deren Werten man Berechnungen anstellen will, einen der nummerischen Datentypen des SQL Servers wählen. Immer wieder kann man beobachten, das solche Daten in Zeichenfolgen Datentypen gespeichert werden. Die Wahl eines nummerischen Datentypen hat den Vorteil, das keine Konvertierung (explizit oder implizit) notwendig ist, um mit den Daten rechnen zu können.

*****

 NVARCHAR oder NCHAR sollten nur dann verwendet werden, wenn man unbedingt Unterstützung für Unicode Zeichen braucht. In allen anderen Fällen ist der Einsatz eine Verschwendung von SQL Server Resourcen. Da sie doppelt soviel Speicherplatz belegen, muß SQL Server unnötig viele I/O Operationen durchführen. Ferner belegen sie unnötig viel Platz im Buffer Cache.

*****

Variieren die Daten in Textspalten deutlich in Länge, ist der Einsatz von VARCHAR gegenüber CHAR vorzuziehen. Dadurch das VARCHAR nur die tatsächlich eingegebene Anzahl an Zeichen belegt, kann man deutlich an Speicherplatz sparen. Was wiederum I/O Operationen spart und damit die allgemeine Performance erhöht.

Ein weiterer Vorteil von VARCHAR ist, daß solche idR schneller sortiert werden können als CHAR Spalten, da SQL Server nur die tatsächlich belegten Zeichen sortieren muß und nicht die gesamte Länge der Spalte.

*****

Variieren die Daten einer Spalte jedoch nicht deutlich in Länge, sollten man den Einsatzt von CHAR in Betracht ziehen. Üblicherweise können solche Daten mit einer CHAR Spalte schneller verarbeitet werden.

*****

FLOAT (oder REAL) Datentypen sind nicht für PRIMARY KEYs geeignet. Nicht nur haben solche Spalten eine unnötigen Overhead, es existieren auch diverse KB Artikel zu Problemen bei FLOAT Daten in Indizes.

*****

Verwendet man Zeichendatentypen fester Länge (CHAR oder NCHAR), sollte man nach Möglichkeit vermeiden, NULL dort zu speichern. Zeichenfolgen Spalten fester Länge belegen immer den vordefinitierten Platz, egal was dort gespeichert wird. Es ist also eine immense Speicherplatzverschwendung, wenn man in einer CHAR(50) Spalten einen NULL Marker speichert. In solchen Fällen macht es mehr Sinn, einen Datentypen variabler Länge zu verwenden.

*****

Normalerweise ist vom Einsatz berechneter Spalten eher abzuraten, da sie Normalisierungsregeln verletzen. Aber manchmal kann es auch effizienter sein, eine solche Spalte einzusetzen als immer wieder diese Berechnung in Abfragen durchzuführen. Dies gilt umsomehr für Berechnung in Abfragen, die sehr häufig ausgeführt werden. Durch ein berechnete Spalte kann man hier die allgemeine Arbeit, die SQL Server verrichten muß, deutlich reduzieren. Allerdings sollte man stets im Einzelfall entscheiden, ob eine berechnete Spalte sich lohnt.

*****

Der SQL_VARIANT Datentyp mag zwar wie eine eierlegende Wollmilchsau erscheinen, bietet aber mehr Nachteile als Vorteile. Er sollte nach Möglichkeit vermeiden werden.

*****

Hat man eine Spalte, von der man im Vorfeld weiß, daß diese Daten häufig sortiert werden müssen, sollte man versuchen, diese Spalte INTEGER basiert zu erstellen, nicht Zeichenfolgenbasiert. Integers lassen sich wesentlich einfacher und schneller sortieren als Zeichenfolgen.

*****

Datenbank Design

Posted on Aug 20, 2005 von in SQL Server

Ein schlechtes logisches Datenbank Design führt zu einem schlechten physikalischen Datenbank Design. Falls man eine Datenbank von Beginn an designen soll, muß zunächst einmal das logischen Design stimmig sein. Erst dann geht es an die physikalische Implementierung. Diese braucht ebenfalls Zeit. Nur wenn sowohl logisches als auch physikalisches Design stimmig sind, kann man eine gute Performance der Datenbank erwarten. Und erst dann sollte man auch mit der Entwicklung der Applikation beginnen. Ein schlechtes logisches Design und das daraus resultierende schlechte physikalische Design kann unter Umständen eine Zeitlang durch leistungsfähige Hardware überspielt werden. Irgendwann einmal ist damit aber auch Schluß. Und dann ist es dann viel zu spät und zu kostspielig, etwas am Datenbank Design und an der Applikation zu ändern.

*****

Die Beachtung der allgemein anerkannten Empfehlungen zur Normalisierung von OLTP Datenbanken ist an und für sich schon ein Garant für eine gute Performance einer Datenbank. Hier sind einige Gründe, warum:

  1. Redundante Daten innerhalb einer Datenbank werden vermieden. Je weniger Daten vorhanden sind, umso weniger Arbeit muß der SQL Server verrichten, was sich positiv auf die Performance auswirken wird.
  2. Die Verwendung des NULL Flags wird auf ein Minimum reduziert. Die Verwendung des NULL Flags kann zwar helfen, bei Spalten variabler Länge Speicherplatz zu sparen, führt aber zu unnötig komplizierter Programmlogik bei Abfragen und kann sich sogar negativ auf die Performance auswirken, gerade bei WHERE Klauseln.
  3. Die Gesamtzahl an Spalten in einer Tabelle kann verringert werden. Dies wiederum bedeutet, daß mehr Zeilen auf eine einzelne Datenseite passen, was wiederum zu einer Verbesserung von SQL Server's Read Performance führt.
  4. Der T-SQL, der benötigt wird, um mit schlecht normalisierten Daten umzugehen, kann minimiert werden. Je weniger Code vorhanden ist, umso weniger Code muß abgearbeitet werden, um zum Ergebnis zu gelangen. Dies sollte sich postiv auf die Performance der Applikation auswirken.
  5. In einer normalisierten Datenbanken kann ein maximaler Nutzen aus Clustered Indexes erzielt werden. Gerade diese Art von Indexes stellen das vielleicht mächtigste Instrument des SQL Server's beim Zugriff auf die Daten dar.

*****

Die Entwicklung einer Applikation und einer OLTP Datenbank sollte man nicht bereits mit dem Hintergedanken einer Denormalisierung beginnen. Das oberste Ziel während des Designprozesses sollte es sein, die Datenbank in die 3. Normalform zu bringen. Falls man sich umsicher, was genau dies bedeutet, sollte man in der einschlägigen Literatur nachlesen. Ist die Datenbank erst einmal in der 3. Normalform, kann man sie einem Belastungstest unter realistischen Bedingungen aussetzen. Stellt man an diesem Zeitpunkt fest, daß die Performance durch eine Denormalisierung deutlich verbessert werden kann, dann, und nur dann, sollte man dies zum Anlass nehmen, hier bewußt gegen die Normalisierungsregeln zu verstoßen.

*****

Speichern von Formeln in Spalten

Posted on Aug 17, 2005 von in SQL Server

Wie könnte es aussehen, wenn man in einem so dynamischen Umfeld arbeitet, daß man selbst die mathematischen Berechnungsformeln nicht hart kodieren will...

Ganze Geschichte »

Datumsarithmetik

Posted on Aug 3, 2005 von in SQL Server

Da sitzt man abends völlig entspannt am Schreibtisch, blättert in alten Unterlagen aus der Studienzeit weil man sich an gewisse mathematische Zusammenhänge nicht mehr so direkt aus dem Kopf erinnern kann, und - zack - stolpert man über Integer Arithmetik. Die (durchaus verworrene) Assoziationskette zu SQL Server und DATETIMEs führt jedenfalls dann dazu, daß das Mathebuch erst einmal Mathebuch ist und bleibt und wir einen Selbstversuch in Datumsarithmetik unternehmen.

Ganze Geschichte »

Stored Procedures mit mehr als einem Output Parameter

Posted on Aug 2, 2005 von in SQL Server

Im SQL Server 2000 kann eine Stored Procedure bis zu 2.100 Parameter haben. Jeder einzelne dieser Parameter kann entweder Input- oder Output Parameter sein.

Ganze Geschichte »

FLOAT Daten in VARCHAR konvertieren

Posted on Aug 2, 2005 von in SQL Server

Die Konvertierung von FLOAT Daten in CHAR oder VARCHAR im SQL Server 2000 kann unter Umständen für Überraschungen sorgen, die mehr oder weniger unangenehm sind. Mal angenommen wir finden einen gültigen Grund, warum wir FLOAT in VARCHAR umwandeln wollen und haben folgende Basisdaten

CREATE TABLE t1
(
Preis FLOAT
)
INSERT INTO t1 SELECT 0.99
UNION ALL SELECT 9.99
UNION ALL SELECT 99.99
UNION ALL SELECT 999.99
UNION ALL SELECT 9999.99

Die Abfrage, die diese Daten umwandeln soll, sieht folgendermaßen aus:

SELECT 
CAST(Preis AS VARCHAR(10)) Preis
FROM t1

Preis
----------
0.99
9.99
99.99
999.99
9999.99

(5 row(s) affected)

So, kein Problem bisher. Nun betrachten wir einmal folgende Basisdaten:

INSERT INTO t1 SELECT 10000
UNION ALL SELECT 10000.49
UNION ALL SELECT 10000.5
UNION ALL SELECT 10000.51
UNION ALL SELECT 10000.99

SELECT
CAST(Preis AS VARCHAR(10)) Preis
FROM t1

Preis
----------
10000
10000.5
10000.5
10000.5
10001

(5 row(s) affected)

Es sieht ganz danach aus, als ob SQL Server 2000 ab 10000 intern eine Rundung vornimmt. Etwas in der Form.

SELECT 
CAST(Preis AS VARCHAR(10)) Preis
, CONVERT(VARCHAR, Preis,0) FROM t1 Preis ---------- ------------------------------ 10000 10000 10000.5 10000.5 10000.5 10000.5 10000.5 10000.5 10001 10001 (5 row(s) affected)

So, wie kriegt man es nun hin, daß auch die Daten heraus kommen, die eingegeben wurden?
Eine Möglichkeit besteht darin, die Daten erst explizit in DECIMAL umzuwandeln und anschließend zurück in VARCHAR. Etwa so:

SELECT 
CAST(Preis AS VARCHAR(10)) Preis
, CONVERT(VARCHAR, Preis,0)
, CAST(CAST(PREIS AS DECIMAL(8,2)) AS VARCHAR(20)) FROM t1 Preis ---------- ------------------------------ -------------------- 10000 10000 10000.00 10000.5 10000.5 10000.49 10000.5 10000.5 10000.50 10000.5 10000.5 10000.51 10001 10001 10000.99 (5 row(s) affected)

Eine weitere Möglichkeit wäre:

SELECT 
CAST(Preis AS VARCHAR(10)) Preis
, CONVERT(VARCHAR, Preis,0)
, CAST(CAST(PREIS AS DECIMAL(8,2)) AS VARCHAR(20))
, LTRIM(RTRIM(STR(ROUND(Preis,2),10,2)))
FROM t1

Preis
---------- ------------------------------ -------------------- ----------
10000 10000 10000.00 10000.00
10000.5 10000.5 10000.49 10000.49
10000.5 10000.5 10000.50 10000.50
10000.5 10000.5 10000.51 10000.51
10001 10001 10000.99 10000.99

(5 row(s) affected)

Diese Methode geht nicht den Umweg über die explizite Konvertierung in einen anderen Datentypen. STR() wandelt FLOAT direkt um. Das RTRIM() ist zwar nicht zwingend notwendig, aber schadet auch nicht wirklich.

Warum zeigt SQL Server dieses Verhalten? Ehrlich gesagt, habe ich darauf keine Antwort. Eventuell könnte Single und Double Precision beim FLOAT Datentyp eine Rolle spielen, aber dies ist nur eine Vermutung. Falls jemand eine schlüssige Begründung für dieses Verhalten hat, würde ich micht freuen, diese zu hören.