背景:

當(dāng)前還有很多工廠、國企、小規(guī)模公司等都采用手工登記考勤的方式進(jìn)行考勤,每月月底需要花大量時(shí)間將手工考勤進(jìn)行手工錄入并生成考勤表或?qū)⒖记谟涗泴?dǎo)入到考勤系統(tǒng)中,這樣就產(chǎn)生了大量重復(fù)工作,希望能做OCR識(shí)別減低工作量,手工登記考勤的記錄如下:

格式一:

格式二:

限制條件:
1.不使用考勤機(jī)、人臉考勤、手機(jī)移動(dòng)考勤等考勤設(shè)備進(jìn)行打卡。

2.不使用云考勤平臺(tái)、考勤系統(tǒng)、考勤軟件打卡管理功能


難點(diǎn):
是手寫體并且有連寫、部份超格或一定量涂改,這些都不受控制。網(wǎng)上的OCR識(shí)別都是以單個(gè)不連體數(shù)字舉例。

突破要點(diǎn):
1、表格格式固定。手寫體只有0-9共計(jì)10個(gè)數(shù)字和兩個(gè)符號(hào):冒號(hào)":"和點(diǎn)'."。
2、手寫時(shí)間識(shí)別相對(duì)較難,但格式有一定規(guī)律:格式為HH:MM,其中MM固定為00或者30。窮舉HH:MM的所有組合也才幾十個(gè)。
3、考勤人員雖有流動(dòng)性但相對(duì)還是固定,也就是說每個(gè)人的字體具有連貫性。

個(gè)人感覺這個(gè)任務(wù)比較適合有監(jiān)督的機(jī)器學(xué)習(xí)來解決,但只會(huì)簡單的一些python,沒實(shí)際操作過機(jī)器學(xué)習(xí)或文字識(shí)別,請(qǐng)指點(diǎn):
1、基于現(xiàn)狀,是否有現(xiàn)成的商業(yè)考勤軟件或考勤管理系統(tǒng)(可以輔助少量人工)可以實(shí)現(xiàn)?
2、如果沒有合適的現(xiàn)成軟件,是否有合適的開源庫之類可以直接實(shí)現(xiàn)?
3、如果以上都沒有,推薦一下合適的技術(shù)方案(有大概的步驟和實(shí)現(xiàn)難度估算)

問題分析:

1.分析常用時(shí)間種類:

(1)開始時(shí)間:從9:00到15:00共13種。

(2)結(jié)束時(shí)間:從15:00到23:00共17種。

2.時(shí)間寫法特征:

(1)以整點(diǎn)或半點(diǎn)的形式出現(xiàn)。

(2)開始時(shí)間與結(jié)束時(shí)間是分開的。

(3)同一格內(nèi)的時(shí)間符號(hào)有交叉、出格。

3.解決方案:

(1)對(duì)開始時(shí)間和結(jié)束時(shí)間分開訓(xùn)練,分開識(shí)別。同一格內(nèi)的時(shí)間整體識(shí)別,不分字符。

(2)對(duì)超出上面分析的時(shí)間種類的其他特殊時(shí)間,在考勤表上注明填寫要求,比如寫在第三列和第四列,或者換張?zhí)厥鈺r(shí)間考勤表,然后人工輔助處理。

(3)掃描時(shí)間獲取樣本時(shí),識(shí)別出格子線,截取時(shí),上下增加范圍,可兼容出格。

(4)其他慢慢考慮。

4.實(shí)現(xiàn)難度:

(1)按表格線分割出開始和結(jié)束時(shí)間。難度在如何識(shí)別出表格線。算法應(yīng)該有現(xiàn)成的,容易獲得。

(2)模型設(shè)計(jì)。可能需要多次嘗試。但標(biāo)簽種類較少,計(jì)算量不大,訓(xùn)練時(shí)間不長,可以試驗(yàn)很多個(gè)模型。

(3)識(shí)別率問題。如果識(shí)別率不高,人工核查將很困難。考慮到分類數(shù)少,時(shí)間整體寫法也不亂(與單個(gè)字符無關(guān)),樣本質(zhì)量很高,識(shí)別率應(yīng)該不錯(cuò)的,好的模型可能會(huì)上99+%。也可以把時(shí)間公布在聯(lián)網(wǎng)機(jī)器上,讓人自己在手機(jī)上核查。甚至,在識(shí)別時(shí)直接根據(jù)概率分布,把相對(duì)不可信的識(shí)別顯示出來人工核查。


您可以返回【考勤系統(tǒng)】首頁或進(jìn)入【新聞資訊】閱讀更多資訊