encoding/text/decode.go

*1c12ee1eSDan Willemsen// Copyright 2018 The Go Authors. All rights reserved.
*1c12ee1eSDan Willemsen// Use of this source code is governed by a BSD-style
*1c12ee1eSDan Willemsen// license that can be found in the LICENSE file.
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenpackage text
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenimport (
*1c12ee1eSDan Willemsen	"bytes"
*1c12ee1eSDan Willemsen	"fmt"
*1c12ee1eSDan Willemsen	"io"
*1c12ee1eSDan Willemsen	"strconv"
*1c12ee1eSDan Willemsen	"unicode/utf8"
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	"google.golang.org/protobuf/internal/errors"
*1c12ee1eSDan Willemsen)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// Decoder is a token-based textproto decoder.
*1c12ee1eSDan Willemsentype Decoder struct {
*1c12ee1eSDan Willemsen	// lastCall is last method called, either readCall or peekCall.
*1c12ee1eSDan Willemsen	// Initial value is readCall.
*1c12ee1eSDan Willemsen	lastCall call
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// lastToken contains the last read token.
*1c12ee1eSDan Willemsen	lastToken Token
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// lastErr contains the last read error.
*1c12ee1eSDan Willemsen	lastErr error
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// openStack is a stack containing the byte characters for MessageOpen and
*1c12ee1eSDan Willemsen	// ListOpen kinds. The top of stack represents the message or the list that
*1c12ee1eSDan Willemsen	// the current token is nested in. An empty stack means the current token is
*1c12ee1eSDan Willemsen	// at the top level message. The characters '{' and '<' both represent the
*1c12ee1eSDan Willemsen	// MessageOpen kind.
*1c12ee1eSDan Willemsen	openStack []byte
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// orig is used in reporting line and column.
*1c12ee1eSDan Willemsen	orig []byte
*1c12ee1eSDan Willemsen	// in contains the unconsumed input.
*1c12ee1eSDan Willemsen	in []byte
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// NewDecoder returns a Decoder to read the given []byte.
*1c12ee1eSDan Willemsenfunc NewDecoder(b []byte) *Decoder {
*1c12ee1eSDan Willemsen	return &Decoder{orig: b, in: b}
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// ErrUnexpectedEOF means that EOF was encountered in the middle of the input.
*1c12ee1eSDan Willemsenvar ErrUnexpectedEOF = errors.New("%v", io.ErrUnexpectedEOF)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// call specifies which Decoder method was invoked.
*1c12ee1eSDan Willemsentype call uint8
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenconst (
*1c12ee1eSDan Willemsen	readCall call = iota
*1c12ee1eSDan Willemsen	peekCall
*1c12ee1eSDan Willemsen)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// Peek looks ahead and returns the next token and error without advancing a read.
*1c12ee1eSDan Willemsenfunc (d *Decoder) Peek() (Token, error) {
*1c12ee1eSDan Willemsen	defer func() { d.lastCall = peekCall }()
*1c12ee1eSDan Willemsen	if d.lastCall == readCall {
*1c12ee1eSDan Willemsen		d.lastToken, d.lastErr = d.Read()
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	return d.lastToken, d.lastErr
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// Read returns the next token.
*1c12ee1eSDan Willemsen// It will return an error if there is no valid token.
*1c12ee1eSDan Willemsenfunc (d *Decoder) Read() (Token, error) {
*1c12ee1eSDan Willemsen	defer func() { d.lastCall = readCall }()
*1c12ee1eSDan Willemsen	if d.lastCall == peekCall {
*1c12ee1eSDan Willemsen		return d.lastToken, d.lastErr
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	tok, err := d.parseNext(d.lastToken.kind)
*1c12ee1eSDan Willemsen	if err != nil {
*1c12ee1eSDan Willemsen		return Token{}, err
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	switch tok.kind {
*1c12ee1eSDan Willemsen	case comma, semicolon:
*1c12ee1eSDan Willemsen		tok, err = d.parseNext(tok.kind)
*1c12ee1eSDan Willemsen		if err != nil {
*1c12ee1eSDan Willemsen			return Token{}, err
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	d.lastToken = tok
*1c12ee1eSDan Willemsen	return tok, nil
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenconst (
*1c12ee1eSDan Willemsen	mismatchedFmt = "mismatched close character %q"
*1c12ee1eSDan Willemsen	unexpectedFmt = "unexpected character %q"
*1c12ee1eSDan Willemsen)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseNext parses the next Token based on given last kind.
*1c12ee1eSDan Willemsenfunc (d *Decoder) parseNext(lastKind Kind) (Token, error) {
*1c12ee1eSDan Willemsen	// Trim leading spaces.
*1c12ee1eSDan Willemsen	d.consume(0)
*1c12ee1eSDan Willemsen	isEOF := false
*1c12ee1eSDan Willemsen	if len(d.in) == 0 {
*1c12ee1eSDan Willemsen		isEOF = true
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	switch lastKind {
*1c12ee1eSDan Willemsen	case EOF:
*1c12ee1eSDan Willemsen		return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case bof:
*1c12ee1eSDan Willemsen		// Start of top level message. Next token can be EOF or Name.
*1c12ee1eSDan Willemsen		if isEOF {
*1c12ee1eSDan Willemsen			return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		return d.parseFieldName()
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case Name:
*1c12ee1eSDan Willemsen		// Next token can be MessageOpen, ListOpen or Scalar.
*1c12ee1eSDan Willemsen		if isEOF {
*1c12ee1eSDan Willemsen			return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen		case '{', '<':
*1c12ee1eSDan Willemsen			d.pushOpenStack(ch)
*1c12ee1eSDan Willemsen			return d.consumeToken(MessageOpen, 1, 0), nil
*1c12ee1eSDan Willemsen		case '[':
*1c12ee1eSDan Willemsen			d.pushOpenStack(ch)
*1c12ee1eSDan Willemsen			return d.consumeToken(ListOpen, 1, 0), nil
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			return d.parseScalar()
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case Scalar:
*1c12ee1eSDan Willemsen		openKind, closeCh := d.currentOpenKind()
*1c12ee1eSDan Willemsen		switch openKind {
*1c12ee1eSDan Willemsen		case bof:
*1c12ee1eSDan Willemsen			// Top level message.
*1c12ee1eSDan Willemsen			// 	Next token can be EOF, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch d.in[0] {
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case MessageOpen:
*1c12ee1eSDan Willemsen			// Next token can be MessageClose, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case closeCh:
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(MessageClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case otherCloseChar[closeCh]:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(mismatchedFmt, ch)
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case ListOpen:
*1c12ee1eSDan Willemsen			// Next token can be ListClose or comma.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case ']':
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(ListClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(unexpectedFmt, ch)
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case MessageOpen:
*1c12ee1eSDan Willemsen		// Next token can be MessageClose or Name.
*1c12ee1eSDan Willemsen		if isEOF {
*1c12ee1eSDan Willemsen			return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		_, closeCh := d.currentOpenKind()
*1c12ee1eSDan Willemsen		switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen		case closeCh:
*1c12ee1eSDan Willemsen			d.popOpenStack()
*1c12ee1eSDan Willemsen			return d.consumeToken(MessageClose, 1, 0), nil
*1c12ee1eSDan Willemsen		case otherCloseChar[closeCh]:
*1c12ee1eSDan Willemsen			return Token{}, d.newSyntaxError(mismatchedFmt, ch)
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			return d.parseFieldName()
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case MessageClose:
*1c12ee1eSDan Willemsen		openKind, closeCh := d.currentOpenKind()
*1c12ee1eSDan Willemsen		switch openKind {
*1c12ee1eSDan Willemsen		case bof:
*1c12ee1eSDan Willemsen			// Top level message.
*1c12ee1eSDan Willemsen			// Next token can be EOF, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case MessageOpen:
*1c12ee1eSDan Willemsen			// Next token can be MessageClose, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case closeCh:
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(MessageClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case otherCloseChar[closeCh]:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(mismatchedFmt, ch)
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case ListOpen:
*1c12ee1eSDan Willemsen			// Next token can be ListClose or comma
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case closeCh:
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(ListClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(unexpectedFmt, ch)
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case ListOpen:
*1c12ee1eSDan Willemsen		// Next token can be ListClose, MessageStart or Scalar.
*1c12ee1eSDan Willemsen		if isEOF {
*1c12ee1eSDan Willemsen			return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen		case ']':
*1c12ee1eSDan Willemsen			d.popOpenStack()
*1c12ee1eSDan Willemsen			return d.consumeToken(ListClose, 1, 0), nil
*1c12ee1eSDan Willemsen		case '{', '<':
*1c12ee1eSDan Willemsen			d.pushOpenStack(ch)
*1c12ee1eSDan Willemsen			return d.consumeToken(MessageOpen, 1, 0), nil
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			return d.parseScalar()
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case ListClose:
*1c12ee1eSDan Willemsen		openKind, closeCh := d.currentOpenKind()
*1c12ee1eSDan Willemsen		switch openKind {
*1c12ee1eSDan Willemsen		case bof:
*1c12ee1eSDan Willemsen			// Top level message.
*1c12ee1eSDan Willemsen			// Next token can be EOF, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case MessageOpen:
*1c12ee1eSDan Willemsen			// Next token can be MessageClose, comma, semicolon or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case closeCh:
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(MessageClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case otherCloseChar[closeCh]:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(mismatchedFmt, ch)
*1c12ee1eSDan Willemsen			case ',':
*1c12ee1eSDan Willemsen				return d.consumeToken(comma, 1, 0), nil
*1c12ee1eSDan Willemsen			case ';':
*1c12ee1eSDan Willemsen				return d.consumeToken(semicolon, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			// It is not possible to have this case. Let it panic below.
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	case comma, semicolon:
*1c12ee1eSDan Willemsen		openKind, closeCh := d.currentOpenKind()
*1c12ee1eSDan Willemsen		switch openKind {
*1c12ee1eSDan Willemsen		case bof:
*1c12ee1eSDan Willemsen			// Top level message. Next token can be EOF or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return d.consumeToken(EOF, 0, 0), nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			return d.parseFieldName()
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case MessageOpen:
*1c12ee1eSDan Willemsen			// Next token can be MessageClose or Name.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case closeCh:
*1c12ee1eSDan Willemsen				d.popOpenStack()
*1c12ee1eSDan Willemsen				return d.consumeToken(MessageClose, 1, 0), nil
*1c12ee1eSDan Willemsen			case otherCloseChar[closeCh]:
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError(mismatchedFmt, ch)
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseFieldName()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case ListOpen:
*1c12ee1eSDan Willemsen			if lastKind == semicolon {
*1c12ee1eSDan Willemsen				// It is not be possible to have this case as logic here
*1c12ee1eSDan Willemsen				// should not have produced a semicolon Token when inside a
*1c12ee1eSDan Willemsen				// list. Let it panic below.
*1c12ee1eSDan Willemsen				break
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			// Next token can be MessageOpen or Scalar.
*1c12ee1eSDan Willemsen			if isEOF {
*1c12ee1eSDan Willemsen				return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			switch ch := d.in[0]; ch {
*1c12ee1eSDan Willemsen			case '{', '<':
*1c12ee1eSDan Willemsen				d.pushOpenStack(ch)
*1c12ee1eSDan Willemsen				return d.consumeToken(MessageOpen, 1, 0), nil
*1c12ee1eSDan Willemsen			default:
*1c12ee1eSDan Willemsen				return d.parseScalar()
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	line, column := d.Position(len(d.orig) - len(d.in))
*1c12ee1eSDan Willemsen	panic(fmt.Sprintf("Decoder.parseNext: bug at handling line %d:%d with lastKind=%v", line, column, lastKind))
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenvar otherCloseChar = map[byte]byte{
*1c12ee1eSDan Willemsen	'}': '>',
*1c12ee1eSDan Willemsen	'>': '}',
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// currentOpenKind indicates whether current position is inside a message, list
*1c12ee1eSDan Willemsen// or top-level message by returning MessageOpen, ListOpen or bof respectively.
*1c12ee1eSDan Willemsen// If the returned kind is either a MessageOpen or ListOpen, it also returns the
*1c12ee1eSDan Willemsen// corresponding closing character.
*1c12ee1eSDan Willemsenfunc (d *Decoder) currentOpenKind() (Kind, byte) {
*1c12ee1eSDan Willemsen	if len(d.openStack) == 0 {
*1c12ee1eSDan Willemsen		return bof, 0
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	openCh := d.openStack[len(d.openStack)-1]
*1c12ee1eSDan Willemsen	switch openCh {
*1c12ee1eSDan Willemsen	case '{':
*1c12ee1eSDan Willemsen		return MessageOpen, '}'
*1c12ee1eSDan Willemsen	case '<':
*1c12ee1eSDan Willemsen		return MessageOpen, '>'
*1c12ee1eSDan Willemsen	case '[':
*1c12ee1eSDan Willemsen		return ListOpen, ']'
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	panic(fmt.Sprintf("Decoder: openStack contains invalid byte %c", openCh))
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenfunc (d *Decoder) pushOpenStack(ch byte) {
*1c12ee1eSDan Willemsen	d.openStack = append(d.openStack, ch)
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenfunc (d *Decoder) popOpenStack() {
*1c12ee1eSDan Willemsen	d.openStack = d.openStack[:len(d.openStack)-1]
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseFieldName parses field name and separator.
*1c12ee1eSDan Willemsenfunc (d *Decoder) parseFieldName() (tok Token, err error) {
*1c12ee1eSDan Willemsen	defer func() {
*1c12ee1eSDan Willemsen		if err == nil && d.tryConsumeChar(':') {
*1c12ee1eSDan Willemsen			tok.attrs |= hasSeparator
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}()
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// Extension or Any type URL.
*1c12ee1eSDan Willemsen	if d.in[0] == '[' {
*1c12ee1eSDan Willemsen		return d.parseTypeName()
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// Identifier.
*1c12ee1eSDan Willemsen	if size := parseIdent(d.in, false); size > 0 {
*1c12ee1eSDan Willemsen		return d.consumeToken(Name, size, uint8(IdentName)), nil
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// Field number. Identify if input is a valid number that is not negative
*1c12ee1eSDan Willemsen	// and is decimal integer within 32-bit range.
*1c12ee1eSDan Willemsen	if num := parseNumber(d.in); num.size > 0 {
*1c12ee1eSDan Willemsen		str := num.string(d.in)
*1c12ee1eSDan Willemsen		if !num.neg && num.kind == numDec {
*1c12ee1eSDan Willemsen			if _, err := strconv.ParseInt(str, 10, 32); err == nil {
*1c12ee1eSDan Willemsen				return d.consumeToken(Name, num.size, uint8(FieldNumber)), nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		return Token{}, d.newSyntaxError("invalid field number: %s", str)
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	return Token{}, d.newSyntaxError("invalid field name: %s", errId(d.in))
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseTypeName parses Any type URL or extension field name. The name is
*1c12ee1eSDan Willemsen// enclosed in [ and ] characters. The C++ parser does not handle many legal URL
*1c12ee1eSDan Willemsen// strings. This implementation is more liberal and allows for the pattern
*1c12ee1eSDan Willemsen// ^[-_a-zA-Z0-9]+([./][-_a-zA-Z0-9]+)*`). Whitespaces and comments are allowed
*1c12ee1eSDan Willemsen// in between [ ], '.', '/' and the sub names.
*1c12ee1eSDan Willemsenfunc (d *Decoder) parseTypeName() (Token, error) {
*1c12ee1eSDan Willemsen	startPos := len(d.orig) - len(d.in)
*1c12ee1eSDan Willemsen	// Use alias s to advance first in order to use d.in for error handling.
*1c12ee1eSDan Willemsen	// Caller already checks for [ as first character.
*1c12ee1eSDan Willemsen	s := consume(d.in[1:], 0)
*1c12ee1eSDan Willemsen	if len(s) == 0 {
*1c12ee1eSDan Willemsen		return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	var name []byte
*1c12ee1eSDan Willemsen	for len(s) > 0 && isTypeNameChar(s[0]) {
*1c12ee1eSDan Willemsen		name = append(name, s[0])
*1c12ee1eSDan Willemsen		s = s[1:]
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	s = consume(s, 0)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	var closed bool
*1c12ee1eSDan Willemsen	for len(s) > 0 && !closed {
*1c12ee1eSDan Willemsen		switch {
*1c12ee1eSDan Willemsen		case s[0] == ']':
*1c12ee1eSDan Willemsen			s = s[1:]
*1c12ee1eSDan Willemsen			closed = true
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		case s[0] == '/', s[0] == '.':
*1c12ee1eSDan Willemsen			if len(name) > 0 && (name[len(name)-1] == '/' || name[len(name)-1] == '.') {
*1c12ee1eSDan Willemsen				return Token{}, d.newSyntaxError("invalid type URL/extension field name: %s",
*1c12ee1eSDan Willemsen					d.orig[startPos:len(d.orig)-len(s)+1])
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			name = append(name, s[0])
*1c12ee1eSDan Willemsen			s = s[1:]
*1c12ee1eSDan Willemsen			s = consume(s, 0)
*1c12ee1eSDan Willemsen			for len(s) > 0 && isTypeNameChar(s[0]) {
*1c12ee1eSDan Willemsen				name = append(name, s[0])
*1c12ee1eSDan Willemsen				s = s[1:]
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			s = consume(s, 0)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			return Token{}, d.newSyntaxError(
*1c12ee1eSDan Willemsen				"invalid type URL/extension field name: %s", d.orig[startPos:len(d.orig)-len(s)+1])
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	if !closed {
*1c12ee1eSDan Willemsen		return Token{}, ErrUnexpectedEOF
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	// First character cannot be '.'. Last character cannot be '.' or '/'.
*1c12ee1eSDan Willemsen	size := len(name)
*1c12ee1eSDan Willemsen	if size == 0 || name[0] == '.' || name[size-1] == '.' || name[size-1] == '/' {
*1c12ee1eSDan Willemsen		return Token{}, d.newSyntaxError("invalid type URL/extension field name: %s",
*1c12ee1eSDan Willemsen			d.orig[startPos:len(d.orig)-len(s)])
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	d.in = s
*1c12ee1eSDan Willemsen	endPos := len(d.orig) - len(d.in)
*1c12ee1eSDan Willemsen	d.consume(0)
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	return Token{
*1c12ee1eSDan Willemsen		kind:  Name,
*1c12ee1eSDan Willemsen		attrs: uint8(TypeName),
*1c12ee1eSDan Willemsen		pos:   startPos,
*1c12ee1eSDan Willemsen		raw:   d.orig[startPos:endPos],
*1c12ee1eSDan Willemsen		str:   string(name),
*1c12ee1eSDan Willemsen	}, nil
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenfunc isTypeNameChar(b byte) bool {
*1c12ee1eSDan Willemsen	return (b == '-' || b == '_' ||
*1c12ee1eSDan Willemsen		('0' <= b && b <= '9') ||
*1c12ee1eSDan Willemsen		('a' <= b && b <= 'z') ||
*1c12ee1eSDan Willemsen		('A' <= b && b <= 'Z'))
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenfunc isWhiteSpace(b byte) bool {
*1c12ee1eSDan Willemsen	switch b {
*1c12ee1eSDan Willemsen	case ' ', '\n', '\r', '\t':
*1c12ee1eSDan Willemsen		return true
*1c12ee1eSDan Willemsen	default:
*1c12ee1eSDan Willemsen		return false
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseIdent parses an unquoted proto identifier and returns size.
*1c12ee1eSDan Willemsen// If allowNeg is true, it allows '-' to be the first character in the
*1c12ee1eSDan Willemsen// identifier. This is used when parsing literal values like -infinity, etc.
*1c12ee1eSDan Willemsen// Regular expression matches an identifier: `^[_a-zA-Z][_a-zA-Z0-9]*`
*1c12ee1eSDan Willemsenfunc parseIdent(input []byte, allowNeg bool) int {
*1c12ee1eSDan Willemsen	var size int
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	s := input
*1c12ee1eSDan Willemsen	if len(s) == 0 {
*1c12ee1eSDan Willemsen		return 0
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	if allowNeg && s[0] == '-' {
*1c12ee1eSDan Willemsen		s = s[1:]
*1c12ee1eSDan Willemsen		size++
*1c12ee1eSDan Willemsen		if len(s) == 0 {
*1c12ee1eSDan Willemsen			return 0
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	switch {
*1c12ee1eSDan Willemsen	case s[0] == '_',
*1c12ee1eSDan Willemsen		'a' <= s[0] && s[0] <= 'z',
*1c12ee1eSDan Willemsen		'A' <= s[0] && s[0] <= 'Z':
*1c12ee1eSDan Willemsen		s = s[1:]
*1c12ee1eSDan Willemsen		size++
*1c12ee1eSDan Willemsen	default:
*1c12ee1eSDan Willemsen		return 0
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	for len(s) > 0 && (s[0] == '_' ||
*1c12ee1eSDan Willemsen		'a' <= s[0] && s[0] <= 'z' ||
*1c12ee1eSDan Willemsen		'A' <= s[0] && s[0] <= 'Z' ||
*1c12ee1eSDan Willemsen		'0' <= s[0] && s[0] <= '9') {
*1c12ee1eSDan Willemsen		s = s[1:]
*1c12ee1eSDan Willemsen		size++
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	if len(s) > 0 && !isDelim(s[0]) {
*1c12ee1eSDan Willemsen		return 0
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	return size
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseScalar parses for a string, literal or number value.
*1c12ee1eSDan Willemsenfunc (d *Decoder) parseScalar() (Token, error) {
*1c12ee1eSDan Willemsen	if d.in[0] == '"' || d.in[0] == '\'' {
*1c12ee1eSDan Willemsen		return d.parseStringValue()
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	if tok, ok := d.parseLiteralValue(); ok {
*1c12ee1eSDan Willemsen		return tok, nil
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	if tok, ok := d.parseNumberValue(); ok {
*1c12ee1eSDan Willemsen		return tok, nil
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen	return Token{}, d.newSyntaxError("invalid scalar value: %s", errId(d.in))
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// parseLiteralValue parses a literal value. A literal value is used for
*1c12ee1eSDan Willemsen// bools, special floats and enums. This function simply identifies that the
*1c12ee1eSDan Willemsen// field value is a literal.
*1c12ee1eSDan Willemsenfunc (d *Decoder) parseLiteralValue() (Token, bool) {
*1c12ee1eSDan Willemsen	size := parseIdent(d.in, true)
*1c12ee1eSDan Willemsen	if size == 0 {
*1c12ee1eSDan Willemsen		return Token{}, false
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	return d.consumeToken(Scalar, size, literalValue), true
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// consumeToken constructs a Token for given Kind from d.in and consumes given
*1c12ee1eSDan Willemsen// size-length from it.
*1c12ee1eSDan Willemsenfunc (d *Decoder) consumeToken(kind Kind, size int, attrs uint8) Token {
*1c12ee1eSDan Willemsen	// Important to compute raw and pos before consuming.
*1c12ee1eSDan Willemsen	tok := Token{
*1c12ee1eSDan Willemsen		kind:  kind,
*1c12ee1eSDan Willemsen		attrs: attrs,
*1c12ee1eSDan Willemsen		pos:   len(d.orig) - len(d.in),
*1c12ee1eSDan Willemsen		raw:   d.in[:size],
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	d.consume(size)
*1c12ee1eSDan Willemsen	return tok
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// newSyntaxError returns a syntax error with line and column information for
*1c12ee1eSDan Willemsen// current position.
*1c12ee1eSDan Willemsenfunc (d *Decoder) newSyntaxError(f string, x ...interface{}) error {
*1c12ee1eSDan Willemsen	e := errors.New(f, x...)
*1c12ee1eSDan Willemsen	line, column := d.Position(len(d.orig) - len(d.in))
*1c12ee1eSDan Willemsen	return errors.New("syntax error (line %d:%d): %v", line, column, e)
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// Position returns line and column number of given index of the original input.
*1c12ee1eSDan Willemsen// It will panic if index is out of range.
*1c12ee1eSDan Willemsenfunc (d *Decoder) Position(idx int) (line int, column int) {
*1c12ee1eSDan Willemsen	b := d.orig[:idx]
*1c12ee1eSDan Willemsen	line = bytes.Count(b, []byte("\n")) + 1
*1c12ee1eSDan Willemsen	if i := bytes.LastIndexByte(b, '\n'); i >= 0 {
*1c12ee1eSDan Willemsen		b = b[i+1:]
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	column = utf8.RuneCount(b) + 1 // ignore multi-rune characters
*1c12ee1eSDan Willemsen	return line, column
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsenfunc (d *Decoder) tryConsumeChar(c byte) bool {
*1c12ee1eSDan Willemsen	if len(d.in) > 0 && d.in[0] == c {
*1c12ee1eSDan Willemsen		d.consume(1)
*1c12ee1eSDan Willemsen		return true
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	return false
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// consume consumes n bytes of input and any subsequent whitespace or comments.
*1c12ee1eSDan Willemsenfunc (d *Decoder) consume(n int) {
*1c12ee1eSDan Willemsen	d.in = consume(d.in, n)
*1c12ee1eSDan Willemsen	return
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// consume consumes n bytes of input and any subsequent whitespace or comments.
*1c12ee1eSDan Willemsenfunc consume(b []byte, n int) []byte {
*1c12ee1eSDan Willemsen	b = b[n:]
*1c12ee1eSDan Willemsen	for len(b) > 0 {
*1c12ee1eSDan Willemsen		switch b[0] {
*1c12ee1eSDan Willemsen		case ' ', '\n', '\r', '\t':
*1c12ee1eSDan Willemsen			b = b[1:]
*1c12ee1eSDan Willemsen		case '#':
*1c12ee1eSDan Willemsen			if i := bytes.IndexByte(b, '\n'); i >= 0 {
*1c12ee1eSDan Willemsen				b = b[i+len("\n"):]
*1c12ee1eSDan Willemsen			} else {
*1c12ee1eSDan Willemsen				b = nil
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen		default:
*1c12ee1eSDan Willemsen			return b
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	return b
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// errId extracts a byte sequence that looks like an invalid ID
*1c12ee1eSDan Willemsen// (for the purposes of error reporting).
*1c12ee1eSDan Willemsenfunc errId(seq []byte) []byte {
*1c12ee1eSDan Willemsen	const maxLen = 32
*1c12ee1eSDan Willemsen	for i := 0; i < len(seq); {
*1c12ee1eSDan Willemsen		if i > maxLen {
*1c12ee1eSDan Willemsen			return append(seq[:i:i], "…"...)
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		r, size := utf8.DecodeRune(seq[i:])
*1c12ee1eSDan Willemsen		if r > utf8.RuneSelf || (r != '/' && isDelim(byte(r))) {
*1c12ee1eSDan Willemsen			if i == 0 {
*1c12ee1eSDan Willemsen				// Either the first byte is invalid UTF-8 or a
*1c12ee1eSDan Willemsen				// delimiter, or the first rune is non-ASCII.
*1c12ee1eSDan Willemsen				// Return it as-is.
*1c12ee1eSDan Willemsen				i = size
*1c12ee1eSDan Willemsen			}
*1c12ee1eSDan Willemsen			return seq[:i:i]
*1c12ee1eSDan Willemsen		}
*1c12ee1eSDan Willemsen		i += size
*1c12ee1eSDan Willemsen	}
*1c12ee1eSDan Willemsen	// No delimiter found.
*1c12ee1eSDan Willemsen	return seq
*1c12ee1eSDan Willemsen}
*1c12ee1eSDan Willemsen
*1c12ee1eSDan Willemsen// isDelim returns true if given byte is a delimiter character.
*1c12ee1eSDan Willemsenfunc isDelim(c byte) bool {
*1c12ee1eSDan Willemsen	return !(c == '-' || c == '+' || c == '.' || c == '_' ||
*1c12ee1eSDan Willemsen		('a' <= c && c <= 'z') ||
*1c12ee1eSDan Willemsen		('A' <= c && c <= 'Z') ||
*1c12ee1eSDan Willemsen		('0' <= c && c <= '9'))
*1c12ee1eSDan Willemsen}