topicModelingTickets/aufgaben.txt

46 lines
952 B
Plaintext
Raw Permalink Normal View History

2017-11-29 16:31:30 +01:00
akronyme & abk. drin lassen
2017-12-08 11:06:07 +01:00
bigramme nicht auf pre, sondern auf cleaned
2017-11-29 16:31:30 +01:00
2017-12-08 11:06:07 +01:00
zahlen drin lassen, bigramme: NUM wort kombis
2017-11-29 16:31:30 +01:00
2017-12-08 11:06:07 +01:00
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
2017-11-29 16:31:30 +01:00
ticket-subj mit einbeziehen
2017-12-08 11:06:07 +01:00
# lizenzen mit in whitelist
2017-11-29 16:31:30 +01:00
2017-12-08 11:06:07 +01:00
relevanz bestimmter wörter ???
toics nach lda von itmc bestimmen lassen
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
2017-11-29 16:31:30 +01:00
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
2017-12-08 11:06:07 +01:00
kategroien verkleinern: onthologien/ornamigram
2017-11-29 16:31:30 +01:00
2017-12-08 11:06:07 +01:00
### Getan:
tagging vor normalisierung
groß/klein rumexperimetieren: # kritisch. ändert pos-tagging. laut termliste wird aber drauf geachtet idee anhand liste o.ä. richtige großschreibung fehler --> geht nicht, in liste auch nicht-immer-nomen
GGrußformeln asm Anfang raus
whitelist (inkl. kb-keywords)
2017-11-29 16:31:30 +01:00
hautpverb (root) drin lassen
2017-12-08 11:06:07 +01:00
bsp: "gesperrt" adj und verben drin lassen?
Footer/Header raus
2017-11-29 16:31:30 +01:00