/* * Copyright (c) 2024, Tim Flynn * * SPDX-License-Identifier: BSD-2-Clause */ #include #include #include #include #include #include #include #include #include #include #include #include namespace Unicode { SegmenterGranularity segmenter_granularity_from_string(StringView segmenter_granularity) { if (segmenter_granularity == "grapheme"sv) return SegmenterGranularity::Grapheme; if (segmenter_granularity == "line"sv) return SegmenterGranularity::Line; if (segmenter_granularity == "sentence"sv) return SegmenterGranularity::Sentence; if (segmenter_granularity == "word"sv) return SegmenterGranularity::Word; VERIFY_NOT_REACHED(); } StringView segmenter_granularity_to_string(SegmenterGranularity segmenter_granularity) { switch (segmenter_granularity) { case SegmenterGranularity::Grapheme: return "grapheme"sv; case SegmenterGranularity::Line: return "line"sv; case SegmenterGranularity::Sentence: return "sentence"sv; case SegmenterGranularity::Word: return "word"sv; } VERIFY_NOT_REACHED(); } // Fast path segmenter for ASCII text where every character is its own grapheme. // This avoids all ICU overhead for the common case of ASCII-only text. class AsciiGraphemeSegmenter : public Segmenter { public: explicit AsciiGraphemeSegmenter(size_t length) : Segmenter(SegmenterGranularity::Grapheme) , m_length(length) { } virtual ~AsciiGraphemeSegmenter() override = default; virtual NonnullOwnPtr clone() const override { return make(m_length); } virtual void set_segmented_text(String text) override { m_length = text.byte_count(); } virtual void set_segmented_text(Utf16View const& text) override { m_length = text.length_in_code_units(); } virtual size_t current_boundary() override { return m_current; } virtual Optional previous_boundary(size_t index, Inclusive inclusive) override { if (inclusive == Inclusive::Yes && index <= m_length) return index; if (index == 0) return {}; return index - 1; } virtual Optional next_boundary(size_t index, Inclusive inclusive) override { if (inclusive == Inclusive::Yes && index <= m_length) return index; if (index >= m_length) return {}; return index + 1; } virtual void for_each_boundary(String text, SegmentationCallback callback) override { set_segmented_text(move(text)); for_each_boundary_impl(callback); } virtual void for_each_boundary(Utf16View const& text, SegmentationCallback callback) override { set_segmented_text(text); for_each_boundary_impl(callback); } virtual void for_each_boundary(Utf32View const& text, SegmentationCallback callback) override { m_length = text.length(); for_each_boundary_impl(callback); } virtual bool is_current_boundary_word_like() const override { return false; } private: void for_each_boundary_impl(SegmentationCallback& callback) { for (size_t i = 0; i <= m_length; ++i) { if (callback(i) == IterationDecision::Break) return; } } size_t m_length { 0 }; size_t m_current { 0 }; }; static bool can_use_ascii_line_breaking_fast_path(ReadonlyBytes bytes) { return all_of(bytes, [](u8 byte) { return is_ascii_printable(byte) || is_ascii_space(byte); }); } // UAX#14 line-break classes that occur in printable ASCII plus ASCII whitespace. // https://www.unicode.org/reports/tr14/#Table1 enum class AsciiLineBreakClass : u8 { AL, // Alphabetic (alphabets and regular symbols) BA, // Break After (TAB, '|') BK, // Mandatory Break (VT, FF) CL, // Close Punctuation ('}') CP, // Close Parenthesis (')', ']') CR, // Carriage Return EX, // Exclamation/Interrogation ('!', '?') HY, // Hyphen ('-') IS, // Infix Numeric Separator (',', '.', ':', ';') LF, // Line Feed NU, // Numeric (digits) OP, // Open Punctuation ('(', '[', '{') PO, // Postfix Numeric ('%') PR, // Prefix Numeric ('$', '+', '\\') QU, // Quotation ('"', '\'') SP, // Space SY, // Symbols Allowing Break After ('/') }; static constexpr AsciiLineBreakClass classify_ascii_byte(u8 byte) { using enum AsciiLineBreakClass; switch (byte) { case '\t': case '|': return BA; case '\n': return LF; case '\v': case '\f': return BK; case '\r': return CR; case ' ': return SP; case '!': case '?': return EX; case '"': case '\'': return QU; case '$': case '+': case '\\': return PR; case '%': return PO; case '(': case '[': case '{': return OP; case ')': case ']': return CP; case ',': case '.': case ':': case ';': return IS; case '-': return HY; case '/': return SY; case '}': return CL; default: return is_ascii_digit(byte) ? NU : AL; } } static void mark_ascii_numeric_expression_interiors(ReadonlyBytes text, Vector& interior_of_numeric_expression) { // Identify spans matching UAX#14 LB25's numeric-expression grammar: // (PR | PO)? (OP | HY)? IS? NU (NU | SY | IS)* (CL | CP)? (PR | PO)? // Positions strictly inside such a span are kept atomic by LB25 — positions at the very start or end of a span are // governed by surrounding rules so adjacent numeric expressions can still break apart. using enum AsciiLineBreakClass; interior_of_numeric_expression.clear_with_capacity(); interior_of_numeric_expression.resize(text.size() + 1); size_t i = 0; while (i < text.size()) { if (classify_ascii_byte(text[i]) != NU) { ++i; continue; } // Walk the prefix backwards: NU is preceded by an optional IS, then optional OP/HY, then optional PR/PO. size_t start = i; if (start > 0 && classify_ascii_byte(text[start - 1]) == IS) --start; if (start > 0 && first_is_one_of(classify_ascii_byte(text[start - 1]), OP, HY)) --start; if (start > 0 && first_is_one_of(classify_ascii_byte(text[start - 1]), PR, PO)) --start; // Walk the body and suffix forward: NU (NU | SY | IS)* (CL | CP)? (PR | PO)? size_t end = i + 1; while (end < text.size() && first_is_one_of(classify_ascii_byte(text[end]), NU, SY, IS)) ++end; if (end < text.size() && first_is_one_of(classify_ascii_byte(text[end]), CL, CP)) ++end; if (end < text.size() && first_is_one_of(classify_ascii_byte(text[end]), PR, PO)) ++end; // Mark positions strictly between `start` and `end` as interior. Position `start` and position `end` // are left alone so adjacent expressions can still break against each other. for (size_t position = start + 1; position < end; ++position) interior_of_numeric_expression[position] = true; i = end; } } static void compute_ascii_line_boundaries(ReadonlyBytes text, Vector& is_boundary) { // Compute soft and mandatory line-break opportunities for ASCII text following UAX#14: https://www.unicode.org/reports/tr14/) // Only the rules whose left- and right-hand classes can occur in printable ASCII plus ASCII whitespace are // implemented. using enum AsciiLineBreakClass; is_boundary.clear_with_capacity(); is_boundary.resize(text.size() + 1); is_boundary[0] = true; if (text.is_empty()) return; is_boundary[text.size()] = true; // LB25: precompute positions interior to numeric expressions. Vector interior_of_numeric_expression; mark_ascii_numeric_expression_interiors(text, interior_of_numeric_expression); // LB14 state: have we just seen `OP SP*` (with no intervening non-SP)? bool in_op_sp_run = false; for (size_t i = 1; i < text.size(); ++i) { auto previous_class = classify_ascii_byte(text[i - 1]); auto current_class = classify_ascii_byte(text[i]); // LB5: CR × LF; CR ! ; LF ! . if (previous_class == CR && current_class == LF) { is_boundary[i] = false; continue; } // LB4: BK ! . LB5 (continued): CR ! and LF ! . if (first_is_one_of(previous_class, BK, CR, LF)) { is_boundary[i] = true; in_op_sp_run = false; continue; } // LB6: × ( BK | CR | LF ). if (first_is_one_of(current_class, BK, CR, LF)) { is_boundary[i] = false; continue; } // LB14 trigger: `OP` starts an `OP SP*` run that suppresses breaks until the next non-SP. if (previous_class == OP) in_op_sp_run = true; // LB7: × SP. The OP-SP* run is preserved across spaces. if (current_class == SP) { is_boundary[i] = false; continue; } // LB14: OP SP* × (no break after OP, even across intervening spaces). if (in_op_sp_run) { is_boundary[i] = false; in_op_sp_run = false; continue; } // LB13: × CL × CP × EX × SY (IS is handled by LB15c/d below). if (first_is_one_of(current_class, CL, CP, EX, SY)) { is_boundary[i] = false; continue; } // LB15d: do not break before IS unless preceded by SP, and even then only when SP IS is followedby NU. if (current_class == IS) { if (previous_class != SP) { is_boundary[i] = false; continue; } auto next_class = i + 1 < text.size() ? classify_ascii_byte(text[i + 1]) : AL; bool next_forces_break = i + 1 < text.size() && next_class == NU; if (!next_forces_break) { is_boundary[i] = false; continue; } // Fall through: SP × IS NU → break before IS (per LB15c "leading decimal point"). is_boundary[i] = true; continue; } // LB18: SP ÷ (default break opportunity after spaces). if (previous_class == SP) { is_boundary[i] = true; continue; } // LB19: × QU; QU × (treat ASCII straight quotes as ambiguous QU). if (current_class == QU || previous_class == QU) { is_boundary[i] = false; continue; } // LB20a: do not break between a hyphen and a following letter when the hyphen comes at the start of a line - // that is, at the start of the text, after a space, or after a forced break. if (previous_class == HY && current_class == AL) { bool hy_starts_line = i == 1; if (!hy_starts_line && i >= 2) hy_starts_line = first_is_one_of(classify_ascii_byte(text[i - 2]), SP, BK, CR, LF); if (hy_starts_line) { is_boundary[i] = false; continue; } } // LB21: × BA; × HY (break-before suppression for BA and HY). if (first_is_one_of(current_class, BA, HY)) { is_boundary[i] = false; continue; } // LB23: AL × NU; NU × AL. if ((previous_class == AL && current_class == NU) || (previous_class == NU && current_class == AL)) { is_boundary[i] = false; continue; } // LB24: (PR | PO) × AL; AL × (PR | PO). if ((first_is_one_of(previous_class, PR, PO) && current_class == AL) || (previous_class == AL && first_is_one_of(current_class, PR, PO))) { is_boundary[i] = false; continue; } // LB25: positions strictly inside a numeric expression are kept atomic. if (interior_of_numeric_expression[i]) { is_boundary[i] = false; continue; } // LB28: AL × AL. if (previous_class == AL && current_class == AL) { is_boundary[i] = false; continue; } // LB29: IS × AL. if (previous_class == IS && current_class == AL) { is_boundary[i] = false; continue; } // LB30: (AL | NU) × OP; CP × (AL | NU). All ASCII OP/CP characters are non-East-Asian. if (current_class == OP && first_is_one_of(previous_class, AL, NU)) { is_boundary[i] = false; continue; } if (previous_class == CP && first_is_one_of(current_class, AL, NU)) { is_boundary[i] = false; continue; } // LB31: ÷ (default). is_boundary[i] = true; } } // Implements UAX#14 line breaking rules for ASCII text: https://www.unicode.org/reports/tr14/tr14-39.html class AsciiLineSegmenter : public Segmenter { public: AsciiLineSegmenter() : Segmenter(SegmenterGranularity::Line) { } virtual ~AsciiLineSegmenter() override = default; virtual NonnullOwnPtr clone() const override { return make(); } virtual void set_segmented_text(String text) override { apply(text.bytes()); } virtual void set_segmented_text(Utf16View const& text) override { VERIFY(text.has_ascii_storage()); auto span = text.ascii_span(); apply({ span.data(), span.size() }); } virtual size_t current_boundary() override { return m_current; } virtual Optional previous_boundary(size_t index, Inclusive inclusive) override { if (inclusive == Inclusive::Yes && index <= text_size() && is_boundary(index)) return index; if (index == 0) return {}; size_t i = min(index, text_size() + 1); while (i > 0) { --i; if (is_boundary(i)) return i; } return {}; } virtual Optional next_boundary(size_t index, Inclusive inclusive) override { if (inclusive == Inclusive::Yes && index <= text_size() && is_boundary(index)) return index; if (index >= text_size()) return {}; for (size_t i = index + 1; i <= text_size(); ++i) { if (is_boundary(i)) return i; } return {}; } virtual void for_each_boundary(String text, SegmentationCallback callback) override { if (text.is_empty()) return; set_segmented_text(move(text)); iterate(callback); } virtual void for_each_boundary(Utf16View const& text, SegmentationCallback callback) override { if (text.is_empty()) return; set_segmented_text(text); iterate(callback); } virtual void for_each_boundary(Utf32View const&, SegmentationCallback) override { VERIFY_NOT_REACHED(); } virtual bool is_current_boundary_word_like() const override { return false; } private: void apply(ReadonlyBytes bytes) { VERIFY(can_use_ascii_line_breaking_fast_path(bytes)); compute_ascii_line_boundaries(bytes, m_is_boundary); m_current = 0; } size_t text_size() const { return m_is_boundary.size() - 1; } bool is_boundary(size_t index) const { VERIFY(index < m_is_boundary.size()); return m_is_boundary[index]; } void iterate(SegmentationCallback& callback) { for (size_t i = 0; i <= text_size(); ++i) { if (!m_is_boundary[i]) continue; m_current = i; if (callback(i) == IterationDecision::Break) return; } } Vector m_is_boundary; size_t m_current { 0 }; }; class SegmenterImpl : public Segmenter { public: SegmenterImpl(NonnullOwnPtr segmenter, SegmenterGranularity segmenter_granularity) : Segmenter(segmenter_granularity) , m_segmenter(move(segmenter)) { } virtual ~SegmenterImpl() override = default; virtual NonnullOwnPtr clone() const override { return make(adopt_own(*m_segmenter->clone()), m_segmenter_granularity); } virtual void set_segmented_text(String text) override { UErrorCode status = U_ZERO_ERROR; m_segmented_text = move(text); auto view = m_segmented_text.get().bytes_as_string_view(); UText utext = UTEXT_INITIALIZER; utext_openUTF8(&utext, view.characters_without_null_termination(), static_cast(view.length()), &status); verify_icu_success(status); m_segmenter->setText(&utext, status); verify_icu_success(status); utext_close(&utext); } virtual void set_segmented_text(Utf16View const& text) override { if (text.has_ascii_storage()) { set_segmented_text(MUST(text.to_utf8())); return; } m_segmented_text = icu::UnicodeString { text.utf16_span().data(), static_cast(text.length_in_code_units()) }; m_segmenter->setText(m_segmented_text.get()); } virtual size_t current_boundary() override { return m_segmenter->current(); } virtual Optional previous_boundary(size_t boundary, Inclusive inclusive) override { auto icu_boundary = align_boundary(boundary); if (inclusive == Inclusive::Yes) { if (static_cast(m_segmenter->isBoundary(icu_boundary))) return static_cast(icu_boundary); } if (auto index = m_segmenter->preceding(icu_boundary); index != icu::BreakIterator::DONE) return static_cast(index); return {}; } virtual Optional next_boundary(size_t boundary, Inclusive inclusive) override { auto icu_boundary = align_boundary(boundary); if (inclusive == Inclusive::Yes) { if (static_cast(m_segmenter->isBoundary(icu_boundary))) return static_cast(icu_boundary); } if (auto index = m_segmenter->following(icu_boundary); index != icu::BreakIterator::DONE) return static_cast(index); return {}; } virtual void for_each_boundary(String text, SegmentationCallback callback) override { if (text.is_empty()) return; set_segmented_text(move(text)); for_each_boundary(move(callback)); } virtual void for_each_boundary(Utf16View const& text, SegmentationCallback callback) override { if (text.is_empty()) return; set_segmented_text(text); for_each_boundary(move(callback)); } virtual void for_each_boundary(Utf32View const& text, SegmentationCallback callback) override { if (text.is_empty()) return; // FIXME: We should be able to create a custom UText provider to avoid converting to UTF-8 here. set_segmented_text(MUST(String::formatted("{}", text))); auto code_points = m_segmented_text.get().code_points(); auto current = code_points.begin(); size_t code_point_index = 0; for_each_boundary([&](auto index) { auto it = code_points.iterator_at_byte_offset(index); while (current != it) { ++code_point_index; ++current; } return callback(code_point_index); }); } virtual bool is_current_boundary_word_like() const override { auto status = m_segmenter->getRuleStatus(); if (status >= UBRK_WORD_NUMBER && status < UBRK_WORD_NUMBER_LIMIT) return true; if (status >= UBRK_WORD_LETTER && status < UBRK_WORD_LETTER_LIMIT) return true; if (status >= UBRK_WORD_KANA && status < UBRK_WORD_KANA_LIMIT) return true; if (status >= UBRK_WORD_IDEO && status < UBRK_WORD_IDEO_LIMIT) return true; return false; } private: i32 align_boundary(size_t boundary) { auto icu_boundary = static_cast(boundary); return m_segmented_text.visit( [&](String const& text) { if (boundary >= text.byte_count()) return static_cast(text.byte_count()); U8_SET_CP_START(text.bytes().data(), 0, icu_boundary); return icu_boundary; }, [&](icu::UnicodeString const& text) { if (icu_boundary >= text.length()) return text.length(); return text.getChar32Start(icu_boundary); }, [](Empty) -> i32 { VERIFY_NOT_REACHED(); }); } void for_each_boundary(SegmentationCallback callback) { if (callback(static_cast(m_segmenter->first())) == IterationDecision::Break) return; while (true) { auto index = m_segmenter->next(); if (index == icu::BreakIterator::DONE) return; if (callback(static_cast(index)) == IterationDecision::Break) return; } } NonnullOwnPtr m_segmenter; Variant m_segmented_text; }; NonnullOwnPtr Segmenter::create(SegmenterGranularity segmenter_granularity) { return Segmenter::create(default_locale(), segmenter_granularity); } NonnullOwnPtr Segmenter::create(StringView locale, SegmenterGranularity segmenter_granularity) { UErrorCode status = U_ZERO_ERROR; auto locale_data = LocaleData::for_locale(locale); VERIFY(locale_data.has_value()); auto segmenter = adopt_own_if_nonnull([&]() { switch (segmenter_granularity) { case SegmenterGranularity::Grapheme: return icu::BreakIterator::createCharacterInstance(locale_data->locale(), status); case SegmenterGranularity::Line: return icu::BreakIterator::createLineInstance(locale_data->locale(), status); case SegmenterGranularity::Sentence: return icu::BreakIterator::createSentenceInstance(locale_data->locale(), status); case SegmenterGranularity::Word: return icu::BreakIterator::createWordInstance(locale_data->locale(), status); } VERIFY_NOT_REACHED(); }()); verify_icu_success(status); return make(segmenter.release_nonnull(), segmenter_granularity); } NonnullOwnPtr Segmenter::create_for_ascii_grapheme(size_t length) { return make(length); } OwnPtr Segmenter::try_create_for_ascii_line(Utf16View const& text) { if (!text.has_ascii_storage()) return {}; auto span = text.ascii_span(); ReadonlyBytes bytes { span.data(), span.size() }; if (!can_use_ascii_line_breaking_fast_path(bytes)) return {}; auto segmenter = make(); segmenter->set_segmented_text(text); return segmenter; } bool Segmenter::should_continue_beyond_word(Utf16View const& word) { for (auto code_point : word) { if (!code_point_has_punctuation_general_category(code_point) && !code_point_has_separator_general_category(code_point)) return false; } return true; } }