topazlang/lexer_8cpp_source.html

#include "../../include/exception/exception.hpp"

#include "../../include/lexer/lexer.hpp"


std::vector<Token> Lexer::tokenize() {

    std::vector<Token> tokens;


    while (pos < source_len) {

        const char c = peek();

        if (c == ' ' || c == '\n') {

            advance();

        }

        else if (c == '/') {

            if (peek(1) == '/') {

                skip_comments();

            }

            else {

                tokens.push_back(tokenize_op());

            }

        }

        else if (isalpha(c) || c == '_') {

            tokens.push_back(tokenize_id());

        }

        else if (isdigit(c)) {

            tokens.push_back(tokenize_number_lit());

        }

        else if (c == '\"') {

            tokens.push_back(tokenize_string_lit());

        }

        else if (c == '\'') {

            tokens.push_back(tokenize_character_lit());

        }

        else {

            tokens.push_back(tokenize_op());

        }

    }


    return tokens;

}


Token Lexer::tokenize_id() {

    std::string value;

    uint32_t tmp_l = line;

    uint32_t tmp_c = column;


    while (pos < source_len && (isalpha(peek()) || isdigit(peek()) || peek() == '_')) {

        value += advance();

    }


    if (keywords.find(value) != keywords.end()) {

        return Token(keywords[value], value, tmp_l, tmp_c, file_name);

    }

    else if (value == "true" || value == "false") {

        return Token(TOK_BOOLEAN_LIT, value, tmp_l, tmp_c, file_name);

    }

    return Token(TOK_ID, value, tmp_l, tmp_c, file_name);

}


Token Lexer::tokenize_number_lit() {

    std::string value;

    uint32_t tmp_l = line;

    uint32_t tmp_c = column;

    bool has_dot = false;


    while (pos < source_len && (isdigit(peek()) || peek() == '.' || peek() == '_')) {

        if (peek() == '_') {

            advance();

            continue;

        }

        else if (peek() == '.') {

            if (has_dot) {

                throw_exception(SUB_LEXER, "Invalid number literal: twice dot", line, file_name, is_debug);

            }

            else if (pos < source_len && peek(1) == '_') {

                throw_exception(SUB_LEXER, "Invalid number literal: \033[0m'_'\033[31m cannot be immediately after the dot", line, file_name, is_debug);

            }

            else if (pos < source_len && !isdigit(peek(1))) {

                throw_exception(SUB_LEXER, "Invalid number literal: dot cannot be the end", line, file_name, is_debug);

            }

            has_dot = true;

        }

        value += advance();

    }


    const char suffix = pos < source_len ? peek() : '\0';

    switch (tolower(suffix)) {

        case 'f':

            advance();

            return Token(TOK_FLOAT_LIT, value, tmp_l, tmp_c, file_name);

        case 's':

            if (has_dot) {

                throw_exception(SUB_LEXER, "Invalid number literal: specified suffix \033[0m's'\033[31m does not match for floating point literal", line, file_name, is_debug);

            }

            advance();

            return Token(TOK_SHORT_LIT, value, tmp_l, tmp_c, file_name);

        case 'l':

            if (has_dot) {

                throw_exception(SUB_LEXER, "Invalid number literal: specified suffix \033[0m'l'\033[31m does not match for floating point literal", line, file_name, is_debug);

            }

            advance();

            return Token(TOK_LONG_LIT, value, tmp_l, tmp_c, file_name);

        default:

            if (has_dot) {

                return Token(TOK_DOUBLE_LIT, value, tmp_l, tmp_c, file_name);

            }

            else {

                return Token(TOK_INT_LIT, value, tmp_l, tmp_c, file_name);

            }

    }

}


Token Lexer::tokenize_string_lit() {

    std::string value;

    uint32_t tmp_l = line;

    uint32_t tmp_c = column;


    advance();

    while (pos < source_len && peek() != '\"') {

        char c = advance();

        if (c == '\\') {

            c = get_escape_sequence();

        }

        value += c;

    }

    if (pos == source_len) {

        throw_exception(SUB_LEXER, "Invalid string literal: missed closing double quote", line, file_name, is_debug);

    }

    advance();


    return Token(TOK_STRING_LIT, value, tmp_l, tmp_c, file_name);

}


Token Lexer::tokenize_character_lit() {

    std::string value;

    uint32_t tmp_l = line;

    uint32_t tmp_c = column;


    advance();

    while (pos < source_len && peek() != '\'') {

        char c = advance();

        if (c == '\\') {

            c = get_escape_sequence();

        }

        value += c;

    }

    if (pos == source_len) {

        throw_exception(SUB_LEXER, "Invalid character literal: missed closing single quote", line, file_name, is_debug);

    }

    else if (value.length() != 1) {

        throw_exception(SUB_LEXER, "Invalid character literal: length should be equal to 1", line, file_name, is_debug);

    }

    advance();


    return Token(TOK_CHARACTER_LIT, value, tmp_l, tmp_c, file_name);

}


Token Lexer::tokenize_op() {

    uint32_t tmp_l = line;

    uint32_t tmp_c = column;

    const char c = advance();


    switch (c) {

        case '+':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_PLUS_EQ, "+=", tmp_l, tmp_c, file_name);

            }

            else if (peek() == '+') {

                advance();

                return Token(TOK_OP_INC, "++", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_PLUS, "+", tmp_l, tmp_c, file_name);

        case '-':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_MINUS_EQ, "-=", tmp_l, tmp_c, file_name);

            }

            else if (peek() == '-') {

                advance();

                return Token(TOK_OP_DEC, "--", tmp_l, tmp_c, file_name);

            }

            else if (peek() == '>') {

                advance();

                return Token(TOK_OP_NEXT, "->", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_MINUS, "-", tmp_l, tmp_c, file_name);

        case '*':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_MULT_EQ, "*=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_MULT, "*", tmp_l, tmp_c, file_name);

        case '/':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_DIV_EQ, "/=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_DIV, "/", tmp_l, tmp_c, file_name);

        case '%':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_MODULO_EQ, "%=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_MODULO, "%", tmp_l, tmp_c, file_name);

        case '=':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_EQ_EQ, "==", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_EQ, "=", tmp_l, tmp_c, file_name);

        case '!':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_NOT_EQ_EQ, "!=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_L_NOT, "!", tmp_l, tmp_c, file_name);

        case '>':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_GT_EQ, ">=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_GT, ">", tmp_l, tmp_c, file_name);

        case '<':

            if (peek() == '=') {

                advance();

                return Token(TOK_OP_LS_EQ, "<=", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_LS, "<", tmp_l, tmp_c, file_name);

        case '&':

            if (peek() == '&') {

                advance();

                return Token(TOK_OP_L_AND, "&&", tmp_l, tmp_c, file_name);

            }

            return Token(TOK_OP_REF, "&", tmp_l, tmp_c, file_name);

        case '|':

            if (peek() == '|') {

                advance();

                return Token(TOK_OP_L_OR, "||", tmp_l, tmp_c, file_name);

            }

            throw_exception(SUB_LEXER, "Operator '|' (aka bitwise or) is unsupported", line, file_name, is_debug);

        case ',':

            return Token(TOK_OP_COMMA, ",", tmp_l, tmp_c, file_name);

        case '.':

            return Token(TOK_OP_DOT, ".", tmp_l, tmp_c, file_name);

        case ':':

            return Token(TOK_OP_COLON, ":", tmp_l, tmp_c, file_name);

        case ';':

            return Token(TOK_OP_SEMICOLON, ";", tmp_l, tmp_c, file_name);

        case '(':

            return Token(TOK_OP_LPAREN, "(", tmp_l, tmp_c, file_name);

        case ')':

            return Token(TOK_OP_RPAREN, ")", tmp_l, tmp_c, file_name);

        case '{':

            return Token(TOK_OP_LBRACE, "{", tmp_l, tmp_c, file_name);

        case '}':

            return Token(TOK_OP_RBRACE, "}", tmp_l, tmp_c, file_name);

        case '[':

            return Token(TOK_OP_LBRACKET, "[", tmp_l, tmp_c, file_name);

        case ']':

            return Token(TOK_OP_RBRACKET, "]", tmp_l, tmp_c, file_name);

        case '?':

            return Token(TOK_OP_QUESTION, "?", tmp_l, tmp_c, file_name);

        default:

            std::stringstream ss;

            ss << "Unsupported operator: \033[0m'" << c << "'";

            throw_exception(SUB_LEXER, ss.str(), line, file_name, is_debug);

    }

}


void Lexer::skip_comments() {

    advance();

    advance();

    while (pos < source_len && peek() != '\n') {

        advance();

    }

}


const char Lexer::get_escape_sequence() {

    const char c = advance();

    switch (c) {

        case 'n':

            return '\n';

        case 't':

            return '\t';

        case 'v':

            return '\v';

        case 'b':

            return '\b';

        case 'r':

            return '\r';

        case 'f':

            return '\f';

        case 'a':

            return '\a';

        case '\\':

            return '\\';

        case '\'':

            return '\'';

        case '"':

            return '\"';

        case '?':

            return '\?';

        default:

            std::stringstream ss;

            ss << "Unsupported escape sequence: \033[0m'\\" << c;

            throw_exception(SUB_LEXER, ss.str(), line, file_name, is_debug);

    }

}


const char Lexer::peek(int32_t rpos) const {

    if (pos + rpos >= source_len || pos + rpos < 0) {

        std::stringstream ss;

        ss << "Index out of range: " << pos + rpos << '/' << source_len;

        throw_exception(SUB_LEXER, ss.str(), line, file_name, is_debug);

    }

    return source[pos + rpos];

}


const char Lexer::advance() {

    const char c = peek();

    pos++;

    column++;

    if (c == '\n') {

        line++;

        column = 1;

    }

    return c;

}


Lexer::file_name
std::string file_name
Definition lexer.hpp:17

Lexer::tokenize_character_lit
Token tokenize_character_lit()
Method for tokenizing character literal.
Definition lexer.cpp:138

Lexer::get_escape_sequence
const char get_escape_sequence()
Method for getting escape-sequence in string or character literal.
Definition lexer.cpp:283

Lexer::tokenize_string_lit
Token tokenize_string_lit()
Method for tokenizing string literal.
Definition lexer.cpp:117

Lexer::tokenize_number_lit
Token tokenize_number_lit()
Method for tokenizing number literal.
Definition lexer.cpp:64

Lexer::source
std::string source
Definition lexer.hpp:18

Lexer::line
uint32_t line
Definition lexer.hpp:21

Lexer::is_debug
bool is_debug
Definition lexer.hpp:50

Lexer::pos
uint32_t pos
Definition lexer.hpp:20

Lexer::advance
const char advance()
Method for skipping current character from source code and returns it.
Definition lexer.cpp:324

Lexer::skip_comments
void skip_comments()
Method for skipping comments.
Definition lexer.cpp:275

Lexer::column
uint32_t column
Definition lexer.hpp:22

Lexer::source_len
size_t source_len
Definition lexer.hpp:19

Lexer::peek
const char peek(int32_t rpos=0) const
Method for getting character from source code by lexer pos and passed offset.
Definition lexer.cpp:315

Lexer::tokenize_op
Token tokenize_op()
Method for tokenizing operator.
Definition lexer.cpp:162

Lexer::tokenize_id
Token tokenize_id()
Method for tokenizing identifier token.
Definition lexer.cpp:46

Lexer::keywords
std::map< std::string, TokenType > keywords
Definition lexer.hpp:23

Lexer::tokenize
std::vector< Token > tokenize()
Method for tokenizing source code.
Definition lexer.cpp:10

throw_exception
void throw_exception(SubsystemType type, std::string msg, uint32_t line, std::string file_name, bool is_debug)
Function for throwing exception.
Definition exception.cpp:30

exception.hpp
Header file for defining thrown exceptions by the compiler.

SUB_LEXER
@ SUB_LEXER
Definition exception.hpp:15

lexer.hpp
Header file for defining the lexer.

Token
Token structure.
Definition token.hpp:92

TOK_OP_DEC
@ TOK_OP_DEC
Definition token.hpp:57

TOK_OP_RBRACKET
@ TOK_OP_RBRACKET
Definition token.hpp:84

TOK_OP_DIV_EQ
@ TOK_OP_DIV_EQ
Definition token.hpp:61

TOK_OP_COMMA
@ TOK_OP_COMMA
Definition token.hpp:75

TOK_OP_DIV
@ TOK_OP_DIV
Definition token.hpp:60

TOK_OP_NEXT
@ TOK_OP_NEXT
Definition token.hpp:86

TOK_OP_LBRACKET
@ TOK_OP_LBRACKET
Definition token.hpp:83

TOK_OP_EQ_EQ
@ TOK_OP_EQ_EQ
Definition token.hpp:65

TOK_OP_LS
@ TOK_OP_LS
Definition token.hpp:69

TOK_OP_GT_EQ
@ TOK_OP_GT_EQ
Definition token.hpp:68

TOK_CHARACTER_LIT
@ TOK_CHARACTER_LIT
Definition token.hpp:43

TOK_OP_MINUS_EQ
@ TOK_OP_MINUS_EQ
Definition token.hpp:56

TOK_OP_LBRACE
@ TOK_OP_LBRACE
Definition token.hpp:81

TOK_STRING_LIT
@ TOK_STRING_LIT
Definition token.hpp:50

TOK_OP_RBRACE
@ TOK_OP_RBRACE
Definition token.hpp:82

TOK_SHORT_LIT
@ TOK_SHORT_LIT
Definition token.hpp:44

TOK_INT_LIT
@ TOK_INT_LIT
Definition token.hpp:45

TOK_OP_LPAREN
@ TOK_OP_LPAREN
Definition token.hpp:79

TOK_OP_NOT_EQ_EQ
@ TOK_OP_NOT_EQ_EQ
Definition token.hpp:66

TOK_OP_PLUS_EQ
@ TOK_OP_PLUS_EQ
Definition token.hpp:53

TOK_ID
@ TOK_ID
Definition token.hpp:42

TOK_OP_L_OR
@ TOK_OP_L_OR
Definition token.hpp:73

TOK_OP_SEMICOLON
@ TOK_OP_SEMICOLON
Definition token.hpp:78

TOK_OP_MULT_EQ
@ TOK_OP_MULT_EQ
Definition token.hpp:59

TOK_OP_RPAREN
@ TOK_OP_RPAREN
Definition token.hpp:80

TOK_OP_INC
@ TOK_OP_INC
Definition token.hpp:54

TOK_OP_QUESTION
@ TOK_OP_QUESTION
Definition token.hpp:85

TOK_OP_PLUS
@ TOK_OP_PLUS
Definition token.hpp:52

TOK_OP_COLON
@ TOK_OP_COLON
Definition token.hpp:77

TOK_OP_L_NOT
@ TOK_OP_L_NOT
Definition token.hpp:71

TOK_OP_DOT
@ TOK_OP_DOT
Definition token.hpp:76

TOK_OP_EQ
@ TOK_OP_EQ
Definition token.hpp:64

TOK_OP_MODULO_EQ
@ TOK_OP_MODULO_EQ
Definition token.hpp:63

TOK_FLOAT_LIT
@ TOK_FLOAT_LIT
Definition token.hpp:47

TOK_OP_L_AND
@ TOK_OP_L_AND
Definition token.hpp:72

TOK_DOUBLE_LIT
@ TOK_DOUBLE_LIT
Definition token.hpp:48

TOK_OP_MODULO
@ TOK_OP_MODULO
Definition token.hpp:62

TOK_OP_MULT
@ TOK_OP_MULT
Definition token.hpp:58

TOK_OP_REF
@ TOK_OP_REF
Definition token.hpp:74

TOK_LONG_LIT
@ TOK_LONG_LIT
Definition token.hpp:46

TOK_OP_GT
@ TOK_OP_GT
Definition token.hpp:67

TOK_OP_MINUS
@ TOK_OP_MINUS
Definition token.hpp:55

TOK_OP_LS_EQ
@ TOK_OP_LS_EQ
Definition token.hpp:70

TOK_BOOLEAN_LIT
@ TOK_BOOLEAN_LIT
Definition token.hpp:49