[T-SQL] Verdelen van timelogs in blokken van X minuten

vrijdag 13 oktober 2023 18:34

Acties:

Topicstarter

Beste Tweakers,

Ik zoek een functie of query om een tabel met logs met een start en eind datum te verdelen in bins/buckets met een interval van X (in dit geval 15 minuten). Ik heb tevens een time tabel met alle 86,400 seconden in een dag waar ik de start en eind tijden van elk interval blok kan joinen per log, samen met een rank van dat blok en het verschil tussen de ranks van het start- en eindblok Ter referentie:

logs

id	start	end	duration	status
1	2023-10-13 14:58:10	2023-10-13 14:59:20	70	Sleeping
2	2023-10-13 14:59:20	2023-10-13 15:02:20	180	Available
3	2023-10-13 14:02:20	2023-10-13 15:02:20	3600	Available
4	2023-10-12 23:59:05	2023-10-13 00:01:05	120	Connected

Hierop join ik de time tabel op zowel start als eind timestamp van de log waardoor ik dit resultaat krijg:

logs

id	start	end	duration	status	blockStartofStart	blockEndofEnd	diffStartEndBlock
1	2023-10-13 14:58:10	2023-10-13 14:59:20	70	Sleeping	14:45:00	15:00:00	0
2	2023-10-13 14:59:20	2023-10-13 15:02:20	180	Available	14:45:00	15:15:00	1
3	2023-10-13 14:02:20	2023-10-13 15:02:20	3600	Available	14:00:00	15:15:00	4
4	2023-10-12 23:59:05	2023-10-13 00:01:05	120	Connected	23:45:00	00:15:00	-95

Ik wil hier nu graag een tabel van genereren die de missende tussenintervallen genereert en de logs over die intervallen verspreid:

logs

id	start	end	duration	status	blockStartofStart	blockEndofEnd	diffStartEndBlock
1	2023-10-13 14:58:10	2023-10-13 14:59:20	70	Sleeping	14:45:00	15:00:00	0
2	2023-10-13 14:59:20	2023-10-13 15:00:00	40	Available	14:45:00	15:00:00	0
3	2023-10-13 15:00:00	2023-10-13 15:02:20	120	Available	15:00:00	15:15:00	0
4	2023-10-13 14:02:20	2023-10-13 15:15:00	760	Available	14:00:00	14:15:00	0
5	2023-10-13 14:15:00	2023-10-13 14:30:00	900	Available	14:15:00	14:30:00	0
6	2023-10-13 14:30:00	2023-10-13 14:45:00	900	Available	14:30:00	14:45:00	0
7	2023-10-13 14:45:00	2023-10-13 15:00:00	900	Available	14:45:00	15:00:00	0
8	2023-10-13 15:00:00	2023-10-13 15:02:20	140	Available	15:00:00	15:15:00	0
9	2023-10-12 23:59:05	2023-10-13 00:00:00	55	Connected	23:45:00	00:00:00	0
10	2023-10-13 00:00:00	2023-10-13 00:01:05	65	Connected	00:00:00	00:15:00	0

Let op het record met -95, omdat de start en eind datum op een andere dag liggen (startblok is 96 (23:45-00:00) en eindblok is 1 (00:00-00:15)). Logs met een duration van langer dan 24uur zullen niet voorkomen dus we kunnen simpel stellen:

CASE diffStartEndBlock
WHEN 0 -->> return gewoon de originele log
WHEN > 0 Voeg het verschil toe en verdeel de logs over hun tijdsblokken
WHEN < 0 Voeg het (96 + verschil) toe en verdeel de logs over hun tijdsblokken

Hoe kan ik dit het beste aaanpakken? Ik weet dat het met de info die ik al heb met een recursieve CTE of een functie vrij makkelijk moet kunnen maar mis even wat SQL skills hier... Het gaat overigens over Azure SQL in dit geval, maar een andere taalspecifieke oplossing mag uiteraard ook!

vrijdag 13 oktober 2023 18:42

Acties:

ASP

Ik heb het door ChatGPT 4 heen gehaald voor je:

Dit is inderdaad een goede use case voor een recursieve CTE in combinatie met een time-tabel die je al hebt. Hier is een SQL-voorstel om het gewenste resultaat te verkrijgen op basis van de gegeven tabellen en structuren:

code:

WITH RECURSIVE CTE AS (
  SELECT 
    id, 
    start, 
    CASE WHEN DATEPART(MINUTE, end) % 15 <> 0 THEN DATEADD(
      MINUTE, 
      15 * (
        DATEPART(MINUTE, end) / 15
      ), 
      CAST(
        CAST(end AS DATE) AS DATETIME
      )
    ) ELSE end END AS adjusted_end, 
    duration, 
    status, 
    blockStartofStart, 
    blockEndofEnd, 
    diffStartEndBlock, 
    1 AS iteration 
  FROM 
    logs 
  WHERE 
    diffStartEndBlock = 0 
  UNION ALL 
  SELECT 
    id, 
    adjusted_end AS start, 
    DATEADD(MINUTE, 15, adjusted_end) AS adjusted_end, 
    duration, 
    status, 
    DATEADD(MINUTE, 15, blockStartofStart), 
    DATEADD(MINUTE, 15, blockEndofEnd), 
    diffStartEndBlock, 
    iteration + 1 
  FROM 
    CTE 
  WHERE 
    (
      diffStartEndBlock > 0 
      AND iteration <= diffStartEndBlock
    ) 
    OR (
      diffStartEndBlock < 0 
      AND iteration <= 96 + diffStartEndBlock
    )
) 
SELECT 
  ROW_NUMBER() OVER(
    ORDER BY 
      start
  ) AS new_id, 
  start, 
  CASE WHEN adjusted_end > end THEN end ELSE adjusted_end END AS end, 
  DATEDIFF(
    SECOND, start, CASE WHEN adjusted_end > end THEN end ELSE adjusted_end END
  ) AS duration, 
  status, 
  blockStartofStart, 
  blockEndofEnd, 
  diffStartEndBlock 
FROM 
  CTE 
ORDER BY 
  start;

Hier is wat het doet:

We maken een recursieve CTE die start met de originele logs waarvan diffStartEndBlock 0 is.

De recursie voegt voor elke iteratie 15 minuten toe aan de start en end tijden, evenals de blockStartofStart en blockEndofEnd tijdvakken, tot het verschil in blokken bereikt is.

De buitenste SELECT bevat een ROW_NUMBER() functie om een nieuwe ID te genereren voor elk resultaat.

We gebruiken een CASE statement om te zorgen dat de end tijd nooit het originele end moment overschrijdt.

Als er specifieke nuances zijn die ik gemist heb, laat het dan even weten. Het concept is echter dat je de recursieve CTE kunt gebruiken om het uitbreiden van de records te beheren op basis van de diffStartEndBlock waarde.

vrijdag 13 oktober 2023 19:44

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

ASP schreef op vrijdag 13 oktober 2023 @ 18:42:
Ik heb het door ChatGPT 4 heen gehaald voor je:

Vast heel goed bedoeld, maar als mensen een ChatGPT antwoord willen dan kunnen ze hun vraag daar zelf wel doorheen halen. Het is dus niet de bedoeling vragen door ChatGPT te halen en dan hier de antwoorden klakkeloos neer te gooien.

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

zaterdag 14 oktober 2023 11:55

Acties:

ASP

RobIII schreef op vrijdag 13 oktober 2023 @ 19:44:
[...]

Vast heel goed bedoeld, maar als mensen een ChatGPT antwoord willen dan kunnen ze hun vraag daar zelf wel doorheen halen. Het is dus niet de bedoeling vragen door ChatGPT te halen en dan hier de antwoorden klakkeloos neer te gooien.

Het was niet goed bedoeld, maar om:

TS erop te wijzen dat we in 2023 leven en ChatGPT 4 een uitstekende start kan bieden;
TS wellicht geen betaald Pro abo heeft voor ChatGPT 4. Mijn ervaringen met 3.5 en lager of andere LLM zijn niet goed en gevaarlijk om te gebruiken met weinig kennis over de materie (SQL) zelf, Daarom een betaald ChatGPT 4 antwoord;
TS een recursieve oplossingen te geven want deze zijn voor ons mensen altijd lastig en complex. Niemand op Tweakers gaat tijd steken in een uitgebreid antwoord zoals ChatGPT 4 dat heeft gedaan. Het dev forum zal z'n langste tijd ook hebben gehad om die reden. Ingehaald door ChatGPT 4.

zaterdag 14 oktober 2023 12:26

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

ASP schreef op zaterdag 14 oktober 2023 @ 11:55:
[...]

Het was niet goed bedoeld

Ook goed. Gewoon niet meer doen

[ Voor 64% gewijzigd door RobIII op 14-10-2023 12:27 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

zaterdag 14 oktober 2023 12:30

Acties:

Cartman!

ASP schreef op zaterdag 14 oktober 2023 @ 11:55:
TS een recursieve oplossingen te geven want deze zijn voor ons mensen altijd lastig en complex. Niemand op Tweakers gaat tijd steken in een uitgebreid antwoord zoals ChatGPT 4 dat heeft gedaan. Het dev forum zal z'n langste tijd ook hebben gehad om die reden. Ingehaald door ChatGPT 4.

Als je ook kijkt wat een gedrocht van een query eruit komt vraag ik me af of dit een goed idee is... Gewoon lekker in je presentatielaag oplossen zou ik zeggen.

zaterdag 14 oktober 2023 14:03

Acties:

Jay-P

Topicstarter

Ik zou het zelf waarschijnlijk ook in pandas of in power query oplossen. Maar aangezien dit data uit een SQL datawarehouse is, het geconsumeerd moet worden door een Power BI rapport dat gebruikt maakt van DirectQuery is dat geen oplossing helaas. Om meerdere redenen. Nogmaals, ik zou het ook anders oplossen maar realiteit dwingt me SQL te gebruiken. Ik ga er nog even over nadenken, volgens mij moet het namelijk ook met een join kunnen, zoiets als:

SQL:

select 
    interval_start, 
    sum(seconds_before_trip_ended - seconds_before_trip_started) as seconds
from (
    select 
        interval_start,
        greatest(0, DATEDIFF(SECOND, '19700101', timestampStart - interval_start)) as seconds_before_trip_started,
        least(3600, DATEDIFF(SECOND, '19700101', timestampEnd) - interval_start) as seconds_before_trip_ended
    from (
        select * from GENERATE_SERIES(
            (select min(DATE_BUCKET(hour, 1, timestampStart)) from timesheet.timelogs),
            (select max(DATE_BUCKET(hour, 1, timestampEnd)) from timesheet.timelogs),
            '1 hour') as interval_start) i
    join timesheet.timelogs l
        on l.start_date <= DATEADD(hour, 1, i.interval_start)
        and coalesce(l.end_date, '2022-03-10 06:00:00') >= interval_start
    ) subq
group by interval_start
order by interval_start;

I know it´s ugly en niet werkend, maar ben even met wat oplossingen van SO aan het spelen. Beter op die manier met vallen en opstaan leren dan klakkeloos een chatgpt oplossing te copy pasten.

zaterdag 14 oktober 2023 20:16

Acties:

mbe81

Kan je geen tabel/query generen met alle blokken (bijv met de generate_series functie)en dan als volgt joinen:

log.start <= blok.eind
log.eind > blok.start

Je hebt dan alle blokken bij een logregel en kan per blok de gebruikte tijd uitrekenen.

[ Voor 9% gewijzigd door mbe81 op 14-10-2023 20:18 ]

zaterdag 14 oktober 2023 22:37

Acties:

Voutloos

Dat werkt. En is veel leesbaarder dan recursive cte met een magische 96.

{signature}

zaterdag 14 oktober 2023 23:04

Acties:

mbe81

Voutloos schreef op zaterdag 14 oktober 2023 @ 22:37:
Dat werkt. En is veel leesbaarder dan recursive cte met een magische 96.

Klopt! Ik heb net een werkende versie in PostgeSQL gemaakt. Zal net iets anders zijn maar de query is in basis vrij simpel zo.

@Jay-P Mocht je er niet uitkomen, dan kan ik deze met je delen.

dinsdag 17 oktober 2023 13:56

Acties:

Jay-P

Topicstarter

@mbe81 Ben ik zeker in geinterreseerd. Temeer omdat ik inmiddels de Recursive CTE versie aan de praat heb gekregen en benieuwd ben naar performance verschil. Vraag me wel af of en hoe er met de joins rekening gehouden kan worden met een eindtijd en starttijd die op verschillende dagen liggen. Aangezien mijn Time table enkel per dag is zou ik denk ik ook moeten joinen om mijn Date table. In ieder geval hoe ik het opgelost heb:

SQL:

CREATE VIEW timesheet.timeLogsBuckets AS
WITH l1 as (SELECT l.id, l.userName , l.[type] , l.intervalsTotal , l.timestampStart, l.timestampStart as timestampStartOrig, l.timestampEnd as timestampEndOrig, l.timestampEnd, l.intervalBlockDayStart , l.intervalBlockDayEnd, intervalStart, intervalEnd  
FROM timesheet.timeLogs l
WHERE l.intervalsTotal = 1)
,multibin_logs AS (
        SELECT l.id, l.userName , l.[type] ,
        CASE WHEN l.intervalsTotal < 0 then (l.intervalsTotal + 96) ELSE l.intervalsTotal END as intervalsTotal,
        DATEADD(MINUTE, -15, DATETIME2FROMPARTS(YEAR(l.timestampEnd), MONTH(l.timestampEnd), DAY(l.timestampEnd), DATEPART(HOUR, l.intervalEnd), (DATEPART(MINUTE, l.intervalEnd)), 0, 0, 0)) as timestampStart,
        l.timestampEnd,
        l.timestampStart as timestampStartOrig, l.timestampEnd as timestampEndOrig,
        l.intervalBlockDayEnd as intervalBlockDayStart , l.intervalBlockDayEnd, intervalStart, intervalEnd  
        FROM timesheet.timeLogs l
        WHERE intervalsTotal <> 1
    UNION ALL
        SELECT mb.id, mb.userName , mb.[type] , mb.intervalsTotal-1 ,
        CASE mb.intervalsTotal WHEN 2 THEN mb.timestampStartOrig
        ELSE DATEADD(MINUTE,(mb.intervalsTotal-2) * 15, DATETIME2FROMPARTS(YEAR(mb.timestampStartOrig), MONTH(mb.timestampStartOrig), DAY(mb.timestampStartOrig), DATEPART(HOUR, mb.intervalStart), DATEPART(MINUTE, mb.intervalStart), 0, 0, 0)) 
        END as timestampStart,
        DATEADD(MINUTE,(mb.intervalsTotal-1) * 15, DATETIME2FROMPARTS(YEAR(mb.timestampStartOrig), MONTH(mb.timestampStartOrig), DAY(mb.timestampStartOrig), DATEPART(HOUR, mb.intervalStart), DATEPART(MINUTE, mb.intervalStart), 0, 0, 0)) as timestampEnd, 
        timestampStartOrig, timestampEndOrig,
              CASE WHEN mb.intervalBlockDayStart = 1 THEN CAST(96 as TINYINT) ELSE CAST(mb.intervalBlockDayStart - 1 as TINYINT) END as intervalBlockDayStart,
              CASE WHEN mb.intervalBlockDayEnd = 1 THEN CAST(96 as TINYINT) ELSE CAST(mb.intervalBlockDayEnd - 1 as TINYINT) END as intervalBlockDayEnd,
              intervalStart, intervalEnd
        FROM multibin_logs mb
        WHERE intervalsTotal > 1
)
SELECT id, userName , [type] , intervalsTotal, timestampStart, timestampEnd, timestampStartOrig, timestampEndOrig, intervalBlockDayStart , intervalBlockDayEnd, intervalStart, intervalEnd  
FROM l1
UNION ALL
SELECT id, userName , [type] , intervalsTotal, timestampStart, timestampEnd, timestampStartOrig, timestampEndOrig, intervalBlockDayStart , intervalBlockDayEnd, intervalStart, intervalEnd  
FROM multibin_logs;

In principe pakt hij nu eerst alle logs die binnen een 15min slot vallen (intervalsTotal=1) en daarna met een recursieve CTE over alle logs gaan die meer dan een interval overspannen.

Bijv bron:

id	type	userName	timestampEnd	duration	timestampStart	timeStart	timeEnd
4651	AFK	test@test.com	2023-10-01 19:47:00.000	426	2023-10-01 19:39:53.000	19:39:53	19:47:00
4653	Exit	test@test.com	2023-10-01 21:01:06.000	312	2023-10-01 20:55:54.000	20:55:54	21:01:06
4654	AppConnected	test@test.com	2023-10-01 21:04:46.000	0	2023-10-01 21:04:46.000	21:04:46	21:04:46
4655	Exit	test@test.com	2023-10-01 21:05:08.000	22	2023-10-01 21:04:46.000	21:04:46	21:05:08
4664	AFK	test@test.com	2023-10-01 21:16:13.000	52	2023-10-01 21:15:21.000	21:15:21	21:16:13
4665	Exit	test@test.com	2023-10-01 21:20:41.000	268	2023-10-01 21:16:13.000	21:16:13	21:20:41
4668	Exit	test@test.com	2023-10-02 00:09:00.000	10028	2023-10-01 21:21:51.000	21:21:51	00:09:00

Resultaat:

id	userName	type	intervalsTotal	timestampStart	timestampEnd	timestampStartOrig	timestampEndOrig	intervalBlockDayStart	intervalBlockDayEnd	intervalStart	intervalEnd
4651	test@test.com	AFK	1	2023-10-01 19:39:53.000	2023-10-01 19:45:00.000	2023-10-01 19:39:53.000	2023-10-01 19:47:00.000	79	79	19:30:00	20:00:00
4651	test@test.com	AFK	2	2023-10-01 19:45:00.000	2023-10-01 19:47:00.000	2023-10-01 19:39:53.000	2023-10-01 19:47:00.000	80	80	19:30:00	20:00:00
4653	test@test.com	Exit	1	2023-10-01 20:55:54.000	2023-10-01 21:00:00.000	2023-10-01 20:55:54.000	2023-10-01 21:01:06.000	84	84	20:45:00	21:15:00
4653	test@test.com	Exit	2	2023-10-01 21:00:00.000	2023-10-01 21:01:06.000	2023-10-01 20:55:54.000	2023-10-01 21:01:06.000	85	85	20:45:00	21:15:00
4654	test@test.com	AppConnected	1	2023-10-01 21:04:46.000	2023-10-01 21:04:46.000	2023-10-01 21:04:46.000	2023-10-01 21:04:46.000	85	85	21:00:00	21:15:00
4655	test@test.com	Exit	1	2023-10-01 21:04:46.000	2023-10-01 21:05:08.000	2023-10-01 21:04:46.000	2023-10-01 21:05:08.000	85	85	21:00:00	21:15:00
4664	test@test.com	AFK	1	2023-10-01 21:15:21.000	2023-10-01 21:16:13.000	2023-10-01 21:15:21.000	2023-10-01 21:16:13.000	86	86	21:15:00	21:30:00
4665	test@test.com	Exit	1	2023-10-01 21:16:13.000	2023-10-01 21:20:41.000	2023-10-01 21:16:13.000	2023-10-01 21:20:41.000	86	86	21:15:00	21:30:00
4668	test@test.com	Exit	1	2023-10-01 21:21:51.000	2023-10-01 21:30:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	86	86	21:15:00	00:15:00
4668	test@test.com	Exit	2	2023-10-01 21:30:00.000	2023-10-01 21:45:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	87	87	21:15:00	00:15:00
4668	test@test.com	Exit	3	2023-10-01 21:45:00.000	2023-10-01 22:00:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	88	88	21:15:00	00:15:00
4668	test@test.com	Exit	4	2023-10-01 22:00:00.000	2023-10-01 22:15:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	89	89	21:15:00	00:15:00
4668	test@test.com	Exit	5	2023-10-01 22:15:00.000	2023-10-01 22:30:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	90	90	21:15:00	00:15:00
4668	test@test.com	Exit	6	2023-10-01 22:30:00.000	2023-10-01 22:45:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	91	91	21:15:00	00:15:00
4668	test@test.com	Exit	7	2023-10-01 22:45:00.000	2023-10-01 23:00:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	92	92	21:15:00	00:15:00
4668	test@test.com	Exit	8	2023-10-01 23:00:00.000	2023-10-01 23:15:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	93	93	21:15:00	00:15:00
4668	test@test.com	Exit	9	2023-10-01 23:15:00.000	2023-10-01 23:30:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	94	94	21:15:00	00:15:00
4668	test@test.com	Exit	10	2023-10-01 23:30:00.000	2023-10-01 23:45:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	95	95	21:15:00	00:15:00
4668	test@test.com	Exit	11	2023-10-01 23:45:00.000	2023-10-02 00:00:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	96	96	21:15:00	00:15:00
4668	test@test.com	Exit	12	2023-10-02 00:00:00.000	2023-10-02 00:09:00.000	2023-10-01 21:21:51.000	2023-10-02 00:09:00.000	1	1	21:15:00	00:15:00

dinsdag 17 oktober 2023 21:21

Acties:

mbe81

Hierbij de (PostgreSQL) query die ik heb gemaakt:

SQL:

select 
  id,
  type,
  username,
  timestampStart,
  timestampEnd,
  blockEnd,
  blockStart,
  least(timestampEnd, blockEnd) - greatest(timestampStart, blockStart) duration
from (
  select 
    date_trunc('hour', timestampStart) + (q * interval '15 minute') blockStart, 
    date_trunc('hour', timestampStart) + (q + 1) * interval '15 minute' blockEnd,
    t.*
  from timelog t, 
    generate_series(0, 96) as q
) d
where timestampEnd >= blockStart
and timestampStart < blockEnd
order by id, blockStart

Reden dat ik PostgeSQL heb genomen is dat dit de enige database was op SQL Fiddle met support for generate_series die je in de eerste query had zitten. Het rekenen met timestamps zal in T-SQL net even anders moeten.

Hierbij ook de link naar de SQL Fiddle: http://sqlfiddle.com/#!17/6bf30/6

Vraag

Alle reacties