Tag: кодировки

Заголовок Content-Length по сравнению с закодированным кодированием

Я пытаюсь взвесить плюсы и минусы настройки HTTP-заголовка Content-Length сравнению с использованием chunked encoding, чтобы вернуть [возможно] большие файлы с моего сервера. Тот или иной необходим для соответствия спецификациям HTTP 1.1 с использованием постоянных соединений. Я вижу преимущество заголовка Content-Length : Диалоги загрузки могут отображать точный индикатор выполнения Клиент знает заранее, если файл может / […]

Сила кодируется из US-ASCII в UTF-8 (iconv)

Я пытаюсь перекодировать кучу файлов из US-ASCII в UTF-8. Для этого я использую iconv: iconv -f US-ASCII -t UTF-8 file.php > file-utf8.php Вещь – это мои исходные файлы, закодированные в US-ASCII, что делает преобразование невозможным. По-видимому, это происходит потому, что ASCII является подмножеством UTF-8 … http://www.linuxquestions.org/questions/linux-software-2/iconv-us-ascii-to-utf-8-or-iso-8859-15-a-705054/ И цитируя: Нет необходимости, чтобы текстовый файл отображался иначе, […]

Как исправить кодировку символа файла?

У меня есть текстовый файл с кодировкой ANSI, который не должен быть закодирован как ANSI, так как есть символы с акцентом, которые ANSI не поддерживает. Я предпочел бы работать с UTF-8. Можно ли правильно декодировать данные или потерять их при перекодировке? Какие инструменты я мог бы использовать? Вот пример того, что у меня есть: ç […]

Угадывание кодировки текста, представленного как byte в Java

Учитывая массив байтов, представляющих текст в некотором неизвестном кодировании (обычно UTF-8 или ISO-8859-1, но не обязательно так), каков наилучший способ получить предположение о наиболее вероятной кодировке (в Java)? Стоит отметить: Дополнительные метаданные недоступны. Байт-массив – это единственный ansible вход. Очевидно, что алгоритм обнаружения не будет на 100% правильным. Если алгоритм правилен более чем в 80% […]

Как правильно использовать WideCharToMultiByte

Я прочитал документацию на WideCharToMultiByte , но я застрял в этом параметре: lpMultiByteStr [out] Pointer to a buffer that receives the converted string. Я не совсем уверен, как правильно инициализировать переменную и передать ее в функцию

Как удалить недопустимые шестнадцатеричные символы из источника данных на основе XML до создания XmlReader или XPathDocument, который использует данные?

Есть ли простой / общий способ очистки источника данных на основе XML до его использования в XmlReader, чтобы я мог изящно потреблять XML-данные, которые не соответствуют шестнадцатеричным ограничениям символов, помещенным в XML? Заметка: Решение должно обрабатывать источники данных XML, которые используют кодировки символов, отличные от UTF-8, например, путем указания кодировки символов в декларации документа XML. […]

URL-адреса и знаки плюс

Я знаю, что a + в строке запроса URL-адреса представляет пробел. Это также случай вне области строки запроса? То есть имеет следующий URL-адрес: http://a.com/a+b/c фактически представляют: http://a.com/ab/c (и, следовательно, необходимо закодировать, если оно должно быть + ), или действительно ли оно представляет a+b/c ?

Преобразование строки в байтовый массив в C #

Я довольно новичок в C #. Я конвертирую что-то из VB в C #. Имея проблему с синтаксисом этого утверждения: if ((searchResult.Properties[“user”].Count > 0)) { profile.User = System.Text.Encoding.UTF8.GetString(searchResult.Properties[“user”][0]); } Затем я вижу следующие ошибки: Аргумент 1: невозможно преобразовать из ‘объекта’ в ‘byte []’ Наилучшее перегруженное соответствие метода для ‘System.Text.Encoding.GetString (byte [])’ имеет некоторые недопустимые аргументы […]

Java: как определить правильную кодировку кодировки streamа

Что касается следующего streamа: Java App: Невозможно правильно прочитать кодированный файл iso-8859-1 Каков наилучший способ программно определить правильную кодировку кодировки входного streamа / файла? Я попытался использовать следующее: File in = new File(args[0]); InputStreamReader r = new InputStreamReader(new FileInputStream(in)); System.out.println(r.getEncoding()); Но в файле, который, как я знаю, закодирован с ISO8859_1, приведенный выше код дает ASCII, […]

Давайте будем гением компьютера.