74 lines
1.5 KiB
Python
74 lines
1.5 KiB
Python
# -*- coding: utf-8 -*-
|
|
import matplotlib
|
|
matplotlib.use('Agg')
|
|
import time
|
|
import init
|
|
|
|
import corporization
|
|
import preprocessing
|
|
import topicModeling
|
|
import cleaning
|
|
|
|
from miscellaneous import *
|
|
|
|
# ssh madonna "nohup /usr/bin/python3 -u /home/jannis.grundmann/PycharmProjects/topicModelingTickets/main.py &> /home/jannis.grundmann/PycharmProjects/topicModelingTickets/log/printout_main.log &"
|
|
start = time.time()
|
|
|
|
# idee http://bigartm.org/
|
|
# idee http://wiki.languagetool.org/tips-and-tricks
|
|
# idee https://en.wikipedia.org/wiki/Noisy_text_analytics
|
|
# idee https://gate.ac.uk/family/
|
|
|
|
|
|
|
|
# todo llda topics zusammenfassen
|
|
# idee lda so trainieren, dass zuordnung term <-> topic nicht zu schwach wird, aber möglichst viele topics
|
|
# frage wieviele tickets pro topic?
|
|
# todo modelle testen
|
|
# frage welche mitarbeiter bearbeiteten welche Topics? idee topics mit mitarbeiternummern erstzen
|
|
# frage wenn 155 versch. kb-einträge benutzt wurden, wieso gibt es nur 139 topics?
|
|
# idee word vorher mit semantischen netz abgleichen: wenn zu weit entfernt, dann ignore
|
|
|
|
#todo FREITAG zeichnen, refactoring
|
|
|
|
|
|
|
|
"""
|
|
|
|
init.main()
|
|
logprint("")
|
|
|
|
corporization.main()
|
|
logprint("")
|
|
|
|
cleaning.main()
|
|
logprint("")
|
|
|
|
preprocessing.main() # ~5h
|
|
logprint("")
|
|
|
|
|
|
"""
|
|
|
|
|
|
#topicModeling.main(algorithm="lsa")
|
|
logprint("")
|
|
|
|
|
|
#topicModeling.main(algorithm="nmf")
|
|
logprint("")
|
|
|
|
|
|
#topicModeling.main(algorithm="lda")
|
|
logprint("")
|
|
|
|
|
|
topicModeling.main(algorithm="llda")
|
|
logprint("")
|
|
|
|
|
|
end = time.time()
|
|
logprint("Total Time Elapsed: {0} min".format((end - start) / 60))
|
|
|
|
|
|
#800*400 |