Snablar!

Det har varit glödhet sommar på Big Data sidan och alla projekt går med en svindlande fart framåt. När man använder ny teknik som skall implementeras är det som alltid viktigt att göra det rätt.

A och O är en god planering annars går det åt mycket tid till oförutsedda händelser.

En utmaning som vi på Middlecon jobbar mycket med är Data Ingestion. I ett av våra cases har vi 100 000 händelser i sekunden som skall tas hand om och då behövs en motorväg som är tillräckligt stor så att vi lyckas skriva allt data till ett Hadoop kluster.

Vissa av ovanstående händelser, närmare bestämt 30 000 av dem varje sekund, behöver skrivas till konsistent media synkront med det som händer i applikationen och det skall skrivas snabbt som attan.

Att få till dessa dataflöden på ett bra sätt är en riktig utmaning för våra Big Data konsulter.

Några tips från oss:

Skapa så mycket strömmande datalösningar direkt till Hadoop som möjligt, undvik batch

Ta bort onödigt (tex dubbletter) data innan det hamnar i Hadoop

Använd Data Governance, det ger stora fördelar

Vill du veta mera kan du titta på dessa länkar till bra lösningar för Data Ingestion

https://nifi.apache.org/

http://mqtt.org/

http://www-03.ibm.com/software/products/sv/iot-messagesight