rolisz's site

ReceiptBudget

După cum am promis în urmă cu câteva zile, voi prezenta proiectul meu cu care am participat la Imprezzio Software Contest și pe care probabil îl voi prezenta la licență.

Ideea aplicației a pornit în anul 1 de facultate, când în primele luni tot rămâneam uimit că îmi zboară banii, așa că am început să notez în Excel toate chel­tu­ielile mele. Cu timpul, tabela Excel a devenit tot mai complexă și până la urmă am zis că mai bine îmi fac propria aplicație, cu care să pot scana bonurile și să îmi facă OCR pe ele.

Partea de scanat de bonuri... nu mi-a ieșit așa de bine cum aș continue.

Character segmentation overfitting

I'm doing a project about doing OCR on receipts and today, while trying to do character seg­men­ta­tion, I made a pretty stupid mistake that led to my model over­fit­ting almost perfectly pretty neatly (in some cases I got 100% correct clas­si­fi­ca­tion accuracy).

I already had my own data about letters (with the help of my parents, I labeled 7000 letters, with their bounding boxes in about 25 receipts) and my classifier (a simple linear SVM) on individual letters did pretty good: between 90-94% accuracy. For something obtained with almost 0 fiddling, it's pretty good, and good enough for my purposes. Also it's pretty much impossible to tell apart 0 continue.