Huis Ontwikkeling Wat is tokenization? - definitie van techopedia

Wat is tokenization? - definitie van techopedia

Inhoudsopgave:

Anonim

Definitie - Wat betekent tokenisatie?

Tokenization is het opdelen van een reeks strings in stukjes zoals woorden, trefwoorden, zinnen, symbolen en andere elementen die tokens worden genoemd. Tokens kunnen afzonderlijke woorden, zinnen of zelfs hele zinnen zijn. Tijdens tokenisatie worden sommige tekens, zoals leestekens, weggegooid. De tokens worden de input voor een ander proces zoals parsing en text mining.

Tokenization wordt gebruikt in de informatica, waar het een grote rol speelt in het proces van lexicale analyse.

Techopedia verklaart Tokenization

Tokenization vertrouwt meestal op eenvoudige heuristieken om tokens te scheiden door een paar stappen te volgen:

  • Munten of woorden worden gescheiden door witruimte, leestekens of regeleinden
  • Witruimte of leestekens kunnen al dan niet worden opgenomen, afhankelijk van de behoefte
  • Alle tekens binnen aaneengesloten tekenreeksen maken deel uit van het token. Tokens kunnen alleen uit alfanumerieke tekens, alfanumerieke tekens of numerieke tekens bestaan.

Tokens zelf kunnen ook scheidingstekens zijn. In de meeste programmeertalen kunnen id's bijvoorbeeld samen met rekenkundige operatoren worden geplaatst zonder spaties. Hoewel het lijkt alsof dit als een enkel woord of token zou verschijnen, beschouwt de grammatica van de taal de wiskundige operator (een token) eigenlijk als een scheidingsteken, dus zelfs wanneer meerdere tokens bij elkaar zijn geplaatst, kunnen ze nog steeds worden gescheiden via de wiskundige operator.

Wat is tokenization? - definitie van techopedia