Infoter.eu cikkajánló

Nincs megjeleníthető elem

Friss kommentek

Válogatás az infoter.eu legolvasottabb cikkeiből

Nincs megjeleníthető elem


'12 okt
15
08:05

Mit ért meg egy számítógép a blogokból?

ferenck

blogosphere.jpgA hasznos információ kinyerése a blogokból egyre nagyobb nehézségekbe ütközik. A közösségi web, különösen az úgynevezett blogoszféra térhódításával ugyanis a már korábban is információs túlterhelésként emlegetett adatáradat folyamatosan nő, magánfelhasználói szinten egyre kezelhetetlenebb, de a gyakorlatilag évente megduplázódó üzleti adatok feldolgozása.

Kutatócsoportok blogok olvasására, megértésére, elemzésére tanítják számítógépes rendszereiket, hogy aztán az összegyűjtött adatokból trendekre következtessenek, vagy egyszerűen csak megkönnyítsék a felhasználó tájékozódását.

Az utóbbi években gyorsan fejlődő természetesnyelv-feldolgozáshoz tartozó kutatások a nyelvi jegyekre összpontosítanak. A szakterület mesterséges intelligencia és nyelvészet szintézise, lényege, hogy a programok jelentést szűrjenek ki az emberi beszédből, szövegekből. A keresőmotoroktól kezdve az iPhone Siri-jéig egyre több a mindennapos alkalmazás. Az okostelefonokat még okosabbá teszik, online kutakodásunk során gyorsabban és pontosabb találatokat kapunk. A blogbányászat is ehhez a diszciplínához kapcsolódik.

Oksági viszonyok gépi értelmezése

A Dél-kaliforniai Egyetem Kreatív Technológiák Intézetének (Los Angeles) tanára, Andrew Gordon például arra szeretné betanítani a számítógépeket, hogy blogokon keresztül tudjanak meg minél többet az ok-okozati viszonyokról. Nehéz feladat, hiszen köztudottan gyengék ezen a területen: eseményeket ugyan tudnak azonosítani, kapcsolatok, kapcsolatrendszerek értelmezése, következtetések levonása viszont általában meghaladja képességeiket.

Pontosan itt jönnek képbe a blogok, de nem mindegy, hogy milyenek, mert csak egy kis részük az oksági viszonyok feltérképezésére ideális történetmesélés, narratíva. Gordon szerint kezdetben mindenképpen ezekre kell koncentrálni. Első lépésként társaival közösen többezer írást címkéztek fel, „történet" és „nem történet" szerint különböztetve meg azokat. Ez azért kulcskérdés, mert más típusú szövegekkel összevetve, történetmesélés közben bizonyos szavakat, szókapcsolatokat nagyobb gyakorisággal használunk. A kritériumoknak megfelelő blogokban sűrűbben fordulnak elő személyes névmások, múlt idejű igék. Mindegy, mi a téma, a két csoport jól elkülöníthető egymástól. A gép az összegyűjtött anyagból tanul, aztán megszerzett ismereteit kamatoztatva kell újabb bejegyzéseket vizsgálva kitalálnia, melyek közülük narratívak, és melyek nem azok.

A következő fázisban az oksági kapcsolatok azonosítását tanítják meg neki. Ezekkel összefüggő szókapcsolatokat, mondatokat ismertetnek meg vele, majd gyakoroltatják: észre kell vennie és csoportokba kell szednie a hasonló mondatokat. A későbbiekben pedig egy olyan rendszert dolgoznának ki, amely napi rendszerességgel gyűjti, elemzi az adatokat.

Efféle rendszer a világháló előtti időkben elképzelhetetlen volt, de még a web 2-0-át megelőző években sem működhetett volna hatékonyan. Régebben az emberek ugyanis szinte csak megbeszélték, de ritkán írták le a velük történteket, és ha leírták, nem tették nyilvánossá. Az internet és különösen a blogok felszabadították a bennünk szunnyadó történetmesélőt. Tegyük hozzá: ezen olvasmányok nagy része érdektelen, gyengén megfogalmazott, az ismeretlenség homályában maradó anyag. Egy számítógépes rendszer számára – legalábbis e szempontok alapján – nincs érdekes és érdektelen szöveg; ha szükséges, az összest átbányássza.

Születő trendek után kutatva

A montreali Concordia Egyetem Számítástudományi és Mérnöki Karán fejlesztett BlogSum rendszer lehetővé teszi, hogy egy vállalat, szervezet az általa feltett kérdésekre (például: miért szeretik jobban a Firefoxot, mint a Chrome-ot stb.) gyorsan megtalálja a válaszokat, azt, hogy az online világban, a blogoszférában miként reagálnának rájuk. Fogyasztói preferenciák, választói szándékok mérésére egyaránt képes, de ezeken kívül is számos potenciális alkalmazás rejlik benne. Honlapokat böngészve, valósidejű online beszélgetéseket, megnyilvánulásokat elemezve jut el az adott kérdésre adandó konkrét válaszig, amelyről pontos összegzést készít.

„Az interneten könnyen hozzáférünk nagymennyiségű elektronikus szöveghez, viszont hamar elveszünk benne, az információmasszában rejlő valódi tartalom megtalálásához segítségre van szükségünk" – nyilatkozta a Concordia Számítógépes Nyelvészeti Laboratóriumában dolgozó egyik fejlesztő, Leila Kosseim.

A közvetlen, hétköznapi nyelv, az informális stílusban írt szövegek gépi elemzése speciális kihívás, bonyolultabb, mint például egy hagyományos sportcikkel megbirkózni. Blogokon, fórumokon és hasonló online felületeken a szerzők általában véleményüket fejtik ki, gyakran érzelem-gazdag nyelven elmélkednek, töprengenek, ráadásul az elütések, helysírási hibák, gyatra nyelvtan, pongyola fogalmazás sem ritka.

Egy összegző programnak, rendszernek két egyedi problémát kell kezelnie: a nem releváns kérdésekét és az összefüggéstelen szövegrészekét. Előbbiek a főkérdéssel kapcsolatban irreleváns, utóbbiak a szerző szándékai szempontjából nem világos, zavaros mondatokra vonatkoznak.

A BlogSum-ot blogokon és filmeket, termékeket értékelő oldalakon tesztelték. Munka közben a szövegrészek kapcsolatát elemezve, szűr meg és rendez mondatokat koherens, jól olvasható összegzésekké. Megoldja az irrelevancia és az inkoherencia problémáját. Korábbi hasonló rendszerekkel összehasonlítva, lényegesen jobban teljesít.

Ha Gordon kezdeményezése, a BlogSum és a hasonló törekvések sikeresek lesznek, a blogbányászat a hétköznapok különféle területein hasznosulhat, a rendszerek születőben lévő trendekről, viselkedésformákról gyűjtenek majd értékes naprakész adatokat.

Kérdés persze, hogy a felhasználók mit szólnak a bejegyzéseikben turkáló programokhoz. Ha egyáltalán tudni fognak róluk...

Szólj hozzá!

Címkék: információs társadalom közösségi oldalak

A bejegyzés trackback címe:

https://infoter.blog.hu/api/trackback/id/tr494777981

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

süti beállítások módosítása