Gyakran Ismételt Kérdések
Általános kérdések
Mi az a címdaraboló?
A címdaraboló egy olyan algoritmus, amely képes a magyar postai címeket automatikusan részeire bontani. Akkor is működik, ha a cím egybe van írva, elgépeléseket tartalmaz vagy nem szabványos formában van megadva. A rendszer integrálható más alkalmazásokba is, például címellenőrzéshez, adatbázis-tisztításhoz vagy címkitöltő űrlapokhoz.
Milyen formátumú címeket tud kezelni a címdaraboló?
A címdaraboló kizárólag magyarországi postai címek feldolgozására lett tervezve. A cím lehet rövidítésekkel teli vagy akár hibás is — a rendszer képes ezeket értelmezni és feldarabolni.
Milyen címrészeket ismer fel a rendszer?
A címdaraboló a következő címrészeket tudja automatikusan felismerni:
- irányítószám
- település
- közterület neve
- közterület jellege (pl. utca, tér, körút)
- házszám
- épület
- lépcsőház
- emelet
- ajtó
Hogyan működik a címdaraboló? Mesterséges intelligencia alapú?
Igen, a címdaraboló modern mesterséges intelligencia technológiára épül. Kifejezetten magyar címeken lett betanítva, köztük számos elgépeléssel, variációval és kevert sorrendű adattal. A modell alapja egy transformer architektúrájú nyelvi modell (BERT), amely képes a szövegkörnyezetet is figyelembe venni a pontos daraboláshoz.
Használható ez a címdaraboló magyarországi címek tömeges feldolgozására?
Igen, a rendszer képes nagy mennyiségű magyar cím automatikus feldolgozására is, így kiválóan alkalmazható adatbázisok tisztítására, migrálásra vagy validálásra.
Külföldi címekkel is működik?
Nem. A címdaraboló kizárólag magyarországi címekhez készült, és jelenleg nem tervezzük más országok címformátumainak támogatását.
Használattal kapcsolatos kérdések
Hogyan használhatom a címdarabolót?
A címdaraboló demója közvetlenül elérhető ezen a weboldalon. Egyszerűen beírhatunk egy magyar postai címet, és a rendszer automatikusan feldarabolja azt az egyes címrészekre.
Amennyiben céges, integrációs vagy egyedi felhasználási igényed van, vedd fel velünk a kapcsolatot! Tudunk biztosítani önállóan futtatható változatot, vagy igény szerint akár egyedi fejlesztést és üzemeltetést is vállalunk.
Be kell tartanom valamilyen formátumot a címek beírásánál?
Nem szükséges semmilyen speciális formátumot betartani. A címet egyszerűen egy mezőbe kell beírni, akár egybeírva, rövidítésekkel vagy nem szabványos formában is — a rendszer képes ezeket értelmezni.
Hány címet tudok egyszerre feldolgozni?
A jelenlegi webes felületen egyszerre egy címet lehet feldolgozni. Ugyanakkor nincs semmilyen technikai korlát a darabszámot illetően — nagyobb mennyiségű cím feldolgozásához kérjük, vedd fel velünk a kapcsolatot egyedi megoldásért.
Mi történik, ha a cím nem egyértelmű vagy hibás?
A rendszer minden egyes címrészhez valószínűségi értékeket is rendel, így visszajelzést ad arról, mennyire “biztos” az adott darabolásban. Ez különösen hasznos elgépelések vagy nem egyértelmű címek esetén. A kimenet alapján eldönthető, hogy elfogadjuk-e az adott eredményt, vagy manuális ellenőrzés szükséges.
Van API hozzáférés is a szolgáltatáshoz?
Jelenleg nincs nyilvánosan elérhető API, de a jövőben tervezünk előfizetéses hozzáférést biztosítani ehhez a funkcióhoz. Ugyanakkor on-premise (helyben telepíthető) változatban már most is elérhető API-n keresztüli integrációs lehetőség — érdeklődés esetén szívesen segítünk a megoldás testreszabásában.
Adatbiztonság és adatkezelés
A megadott címadatok el vannak mentve?
A demóoldalon nem tároljuk a címeket. Csupán a megadott cím lenyomatát (hashét) rögzítjük technikai okokból, de ez alapján a cím nem visszafejthető, így személyes adatként sem kezelhető. Az on-premise, azaz helyben futtatható verzió esetében semmilyen adatmentés nem történik, az adatok teljes mértékben a felhasználó rendszere alatt maradnak.
Biztonságos a szolgáltatás használata érzékeny adatokkal?
Igen. A szolgáltatás úgy lett kialakítva, hogy a feldolgozás során megadott adatok nem kerülnek sem tárolásra, sem továbbításra. A demó verzió is csak a legszükségesebb technikai információkat tartja meg, minden más törlődik a feldolgozás után. Vállalati vagy on-premise használat esetén pedig teljes adatkontroll a felhasználónál marad — az adatvédelmi szempontok kiemelt prioritást élveznek.
Használjátok a beadott adatokat a modell tanítására?
Alapértelmezetten nem. A címek csak akkor kerülnek elmentésre a tanítóhalmazba, ha a felhasználó tudatosan visszajelzést ad a „Helyes eredmény” vagy „Helytelen eredmény” gombok használatával a demóoldalon. Ez a visszajelzés önkéntes, és kizárólag a szolgáltatás minőségének javítását szolgálja. A beküldött adatokat ebben az esetben bizalmasan kezeljük, és csak tanítási célra használjuk fel.
Kapcsolat és visszajelzés
Hogyan tudok hibát jelenteni vagy javaslatot tenni?
Ha hibát észlelsz, kérdésed van, vagy ötleted támad a címdaraboló fejlesztésével kapcsolatban, örömmel fogadjuk a visszajelzésed! Lépj a menüsorban található Kapcsolat gombra, vagy írj közvetlenül e-mailt a következő címre: karsany@karsany.hu. A levél tárgyában kérjük, tüntesd fel: „Címdaraboló”, hogy gyorsabban tudjunk reagálni.
Hol található a projekt forráskódja? Nyílt forráskódú a címdaraboló?
A címdaraboló zárt forráskódú megoldás, beleértve a tanító adathalmazt, az adat-előkészítő scripteket és a feldolgozó logikát is. Ugyanakkor együttműködés vagy szerződéses kapcsolat esetén lehetőség van a forráskód letétbe helyezésére (source code escrow), így biztosítva a hosszú távú biztonságot és rugalmasságot partnereink számára.
A mesterséges intelligencia modell alapját a SzegedAI/hubertusz-small-wiki adja, amely Apache 2.0 licenc alatt érhető el. A címdarabolóban használt modell ennek egy származtatott változata (derivative work), kifejezetten magyar címekhez igazítva.
Hogyan léphetünk kapcsolatba a fejlesztővel?
A leggyorsabb mód a kapcsolatfelvételre, ha rákattintasz a weboldalon a Kapcsolat menüpontra, vagy írsz e-mailt a karsany@karsany.hu címre. Kérjük, a tárgy mezőben tüntesd fel, hogy „Címdaraboló”, így gyorsabban tudunk segíteni.
Technikai részletek
Milyen technológiát használ a címdaraboló?
A címdaraboló lelke egy BERT-alapú nyelvi modell, amelyet kifejezetten magyar címek feldolgozására képeztünk ki. A tanítóhalmaz kezelése és a modell betanítása Python nyelven, PyTorch keretrendszerrel történt. A betanított modell ezután ONNX-formátumba került exportálásra, amely lehetővé teszi a gyors és hatékony integrációt különböző platformokon.
A feldolgozás a gyakorlatban Java 21 környezetben történik, amely ideális választás vállalati használatra:
- natívan és konténerizált formában (pl. Docker) is könnyen futtatható,
- jól illeszkedik nagyvállalati IT-infrastruktúrákhoz,
- egyszerűen beépíthető meglévő rendszerekbe és DevOps folyamatokba.
Ez a technológiai felépítés biztosítja a skálázhatóságot, hordozhatóságot és integrálhatóságot akár kis cégeknél, akár komplex szervezeti környezetben.
Van dokumentáció az API-hoz vagy a működéshez?
Igen, az API-hoz OpenAPI (Swagger) alapú leíró fájlt biztosítunk, amely megkönnyíti az integrációt fejlesztők számára. Ezen felül, igény szerint szívesen készítünk vagy átadunk részletes technikai dokumentációt is, például:
- rendszerterv,
- üzemeltetési dokumentáció,
- biztonsági átvilágítási anyagok,
- egyedi API-leírás az adott környezethez igazítva.
Hogyan kezeli a címdaraboló a speciális karaktereket vagy rövidítéseket (pl. „u.”, „út”, „krt.”)?
A modell betanítása során figyelembe vettük a leggyakoribb rövidítéseket és variációkat (pl. „u.” – „utca”, „krt.” – „körút”). A mesterséges intelligencia jellege miatt a címdaraboló képes ezek nem szokványos alakjait is értelmezni, sőt, bizonyos elgépeléseket vagy vegyes használatot is kezelni tud — bár a pontosság ezeknél az eseteknél kissé csökkenhet.
Képes a címdaraboló javítani vagy normalizálni a címeket?
A válasz: nem. A címdaraboló nem végzi el a címek javítását vagy standardizálását, kizárólag a meglévő szöveget bontja fel logikai címrészekre. Nem írja át az utca nevét helyesen, nem egészíti ki hiányzó adatokat, és nem ellenőrzi a létezésüket adatbázis alapján. A későbbiekben tervezzük ennek a funkcionalitásnak a fejlesztését is.