sql – 在索引范围扫描的情况下,整数列索引是否比字符串列索引更快?

我在SQL Server上有一个数据库实现任务,其中有一个包含列的表A – yearMonth.我不需要日期操作,例如计算当前两个日期之间的天数或月数. yearMonth可以定义为Date,Int或varchar(6).从节省数据空间的角度来看,4字节Int显然是最佳选择,因为只需要6位int. 201701.而varchar(6)占用6个字节,而Date占用2×4个字节. (适用于大多数数据库)

但是从索引的角度来看,尤其是在索引范围扫描的情况下?

>如果将列yearMonth定义为varchar(6),则在使用查询选择时可以发生索引范围扫描..来自A其中yearMonth IN(…)
>如果将列yearMonth定义为Int或Date,则可以使用< =,< =等运算符进行索引范围扫描.
在上面的情况中,当索引范围扫描发生时,哪种类型的列定义更有效?

最佳答案 大多数(如果不是全部)DBMS本质上都将日期存储为整数,而对于DateTime,它是两个整数,一个用于日期,一个用于时间,因此两者之间几乎没有差别.我认为你最大的考虑因素是你打算如何使用该列,如果你想对列进行任何类型的日期操作,然后将其存储为日期(默认为该月的第1天).例如,如果您想知道201604和201701之间的月份,使用日期会更容易,如果您希望将值格式化为2017年4月,如果将其存储为日期则更容易.

另一个考虑因素是验证,如果您有varchar(6)或int,则需要额外的检查约束以确保输入的任何值实际上是有效日期,任何人都可以轻松输入999999,而年份有效,月份不是,对于varchar而言,可输入的无意义的可能性是无穷无尽的.

现在您已经标记了SQL Server,我可以更明确地回答 – DATE和INT都占用了4个字节的存储空间,因此没有节省空间,并且从测试开始执行几乎完全相同(日期执行不多,但不是更好,通常读取次数较少),因此使用int没有任何好处(除非您不希望仅限于有效日期)

我使用以下模式进行了一些快速测试:

CREATE TABLE dbo.TDate (ID INT IDENTITY(1, 1) PRIMARY KEY, DT DATE NOT NULL);
INSERT dbo.TDate (DT)
SELECT TOP 100000 DATEADD(MONTH, RAND(CHECKSUM(NEWID())) * 300, '20000101')
FROM sys.all_objects a, sys.all_objects b;

CREATE NONCLUSTERED INDEX IX_TDate_DT ON dbo.TDate (DT);

CREATE TABLE dbo.TInt(ID INT IDENTITY(1, 1) PRIMARY KEY, DT INT NOT NULL);
INSERT dbo.TInt (DT)
SELECT (DATEPART(YEAR, DT) * 100) + DATEPART(MONTH, DT)
FROM dbo.TDate;

CREATE NONCLUSTERED INDEX IX_TInt_DT ON dbo.TInt (DT);

然后运行它来比较性能

DECLARE @D1 DATE = (SELECT TOP 1 DT FROM dbo.TDate ORDER BY NEWID());
DECLARE @D2 DATE = (SELECT TOP 1 DT FROM dbo.TDate WHERE DT > @D1 ORDER BY NEWID());
DECLARE @I1 INT = (DATEPART(YEAR, @D1) * 100) + DATEPART(MONTH, @D1),
        @I2 INT = (DATEPART(YEAR, @D2) * 100) + DATEPART(MONTH, @D2);


SET STATISTICS IO ON;
SET STATISTICS TIME ON;

SELECT  COUNT(*)
FROM    dbo.TDate
WHERE   DT >= @D1
AND     DT < @D2;

SELECT  COUNT(*)
FROM    dbo.TInt
WHERE   DT >= @I1
AND     DT < @I2;

SET STATISTICS IO OFF;
SET STATISTICS TIME OFF;
点赞